分类
哥伦比亚大学新闻

发短信给朋友能让更多人投票吗?这位数据科学家想找出答案。

数据科学领域仍在兴起,博士后亚伦•沙因(Aaron Schein)正在帮助定义数据科学。沙因对编程和谈论政治都很在行。沙因是数据科学研究所第一批研究员中的一员。今年夏天,他加入了哥伦比亚大学芝加哥大学的同行。

沙因的父母都是语言学教授(他的母亲在麻省理工学院,父亲在南加州大学),沙因本科时最初学习的是政治学和语言学。他计划继续攻读近东研究的博士学位,直到一个涉及大规模分析波斯语社交媒体的项目让他转向了统计学和机器学习。他把注意力转向了计算机科学,在马萨诸塞大学阿默斯特分校(University of Massachusetts, Amherst)完成博士学位后,来到哥伦比亚大学(Columbia University)。

当沙因准备离开纽约去芝加哥大学(University of Chicago)攻读统计学终身职位时,哥伦比亚新闻(Columbia News)找到了他。

你在哥伦比亚大学数据科学研究所的经历对你进入芝加哥大学有什么帮助?

在研究所,我已经能够领导社会/政治科学家和统计学家/计算机科学家之间的合作,并学习如何做真正的跨学科研究。我还帮助组织了跨学科项目,比如杰出系列讲座。在芝加哥大学,我希望与校园里许多杰出的社会和政治科学家合作,将现代数据集应用于政策重要性的问题。我也渴望帮助他们建立研究所,并将数据科学定义为一门新兴学科。

是什么让你从学习外交政策、语言学甚至波斯语转向了数据科学?

我第一次接触数据科学是在马萨诸塞大学读本科的时候,当时我在旁听汉娜·瓦拉赫(Hanna Wallach)的计算社会科学研讨会。这是一种刺激,但我缺乏机器学习方面的正规训练来驾驭它。随后,我在一家联邦研究实验室实习,通过波斯语博客研究伊朗的公众舆论。目的是在美伊关系仍有缓和希望之际,向美国政策制定者提供有关伊朗政治思想的微妙观点。我用自然语言处理方法来描述这些博客中的情感和主题。这让我对计算机科学和统计学感到兴奋,并让我最终走上了攻读计算机科学博士学位的道路,我回到马萨诸塞大学时和汉娜·瓦拉赫(Hanna Wallach)在一起。

对那些努力寻找自己学术重心的人有什么建议?

你问错人了吧。我从不擅长学习我不感兴趣的东西。(我仍然不是。)幸运的是,我进入了一个热门领域,找到了工作。我想说,跟随你的好奇心是一个很好的策略,但我认为那只是繁殖生存偏差。不过,我还是要说数据科学和统计学。作为一种职业,它可以让你四处走动。我专注于政治科学,但我也与遗传学家、经济学家和神经学家合作。作为一个方法论家是很难感到无聊的!

给朋友发短信和敲门投票一样有效吗?有什么注意事项吗?

这是我和David Blei, Donald Green以及其他人一起问过的问题。我们一直在Outvote上进行大规模的随机现场实验,Outvote是一款让美国人给朋友发短信提醒他们投票的应用。我们发现,在2018年中期选举中,“Outvote”用户对让朋友投票的影响约为8%。相对于挨家挨户的拉票、电话银行和其他动员投票的行动来说,这是一个很大的数字。但我们在2020年总统选举期间进行了另一项实验,发现效果要弱得多。这并不意外,因为在总统选举期间,轻推的效果通常较差,但我们正在等待2022年中期选举,看看能否复制2018年的结果。请继续关注!

对即将到来的中期选举有什么预测吗?

我有预测,但估计也不比你的好。给你的朋友发短信提醒他们注册和投票。

你曾在世界顶级机器学习会议——NeurIPS上共同领导过一个很受欢迎的研讨会,主题是那些不可行的美好想法。为什么?

如今,机器学习研究的度量化程度越来越高,竞争也越来越激烈。研究人员被激励去创造超越基线的新方法,而不是理解基本原理或开发解决问题的新方法。这些研讨会旨在促进负面结果,强调理论和实践之间的差距,并征求不一定“有效”的“漂亮”想法(目前)。

你是我见过的第一个概率分布以你命名的博士后。什么是“沙因”分布?

我们在NeurIPS 2019年的一篇论文中介绍了它,泊松随机伽马动力系统。我们称之为“移位合流超几何分布”,因为它是先前已知分布的一种变化。描述这种分布是拟合国家间交互数据模型的算法的一个组成部分。这样的数据由“国家i在时间t采取了行动a到国家j”的微观记录组成,这样的事件有数百万个。我们的模型是一个时间序列模型,它可以描述未观察到的或未来事件的不确定性。

我的合著者之一斯科特·林德曼(Scott Linderman)与人合写了一篇后续论文,用类似的方法构建了一个神经科学数据模型,他们将其重新命名为“沙因分布”(Schein distribution)。我妈妈在她办公室的门上贴了一张打印出来的纸。

数据科学家经常遇到这种情况吗?

有一个以它们命名的发行版?不!这是罕见的,了不起的!

你是在马萨诸塞州布鲁克莱恩长大的政治组织者。这影响了你的工作吗?

没有,但它在一个重要的方面影响了我在哥伦比亚的生活。我最近得知,约翰•克里(John Kerry)一位失散已久的朋友、2004年的竞选伙伴现在拥有一家匈牙利糕点店(Hungarian Pastry Shop)。有一天我在订糕点的时候我们又联系上了。

关于数据科学,每个人都应该知道什么?

现在很流行这样一个想法:一旦我们收集了足够的数据,哪些方法将会过时。但我的看法是,根本不存在所谓的“大数据”。这取决于你的问题;如果您的数据对于您提出的问题来说是“大”的,那么也许您应该提出更大的问题!我们总是需要理论、领域知识和量身定制的方法来回答这些大问题。

与社会科学家合作与与物理科学家合作有何不同?

我的感觉是,社会科学家强调理论来指导他们的实证工作,通常不太愿意接受纯粹的归纳方法来研究科学。考虑到社会科学数据的传统稀缺性,这是有道理的。但这些数据越来越丰富,所以这可能会改变。就目前而言,我认为计算社会科学意味着参与理论。

文章旨在传播新闻信息,原文请查看https://news.columbia.edu/news/can-texting-friend-get-more-people-vote-data-scientist-wants-find-out