多年的数据集表明，用人工智能预测人们的生活结果并不是那么简单

普林斯顿大学(Princeton)研究人员牵头的一项大规模合作研究显示，科学家用来预测大型数据集结果的机器学习技术，在预测人们的生活结果方面可能存在不足。

研究结果由112名共同作者发表在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)杂志上。研究结果表明，社会学家和数据科学家应该谨慎使用预测模型，尤其是在刑事司法系统和社会项目中。

160个由数据和社会科学家组成的研究小组建立了统计和机器学习模型，以预测儿童、父母和家庭的六种生活结果。即使使用了最先进的建模技术和包含4000多个家庭1.3万个数据点的高质量数据集，最好的人工智能预测模型也不是很准确。

“这里有一个设置有数百名参与者和丰富的数据集,甚至最好的人工智能结果仍然是不准确的,”马特研究位联席作者说Salganik,普林斯顿大学的社会学教授和临时信息技术政策中心主任,联合中心工程和应用科学学院和伍德罗·威尔逊公共和国际事务学院。

“这些结果告诉我们，机器学习不是魔法;在预测生命进程方面，显然还有其他因素在起作用，”他说。“这项研究还向我们表明，我们还有很多东西要学，像这样的大规模合作对研究界非常重要。”

萨尔甘尼克说，这项研究确实揭示了在大规模合作环境中把不同学科的专家聚集在一起的好处。在许多情况下，更简单的模型胜过更复杂的技术，而拥有更精确得分模型的团队来自不寻常的学科——比如政治，对弱势群体的研究是有限的。

萨尔甘尼克说，这个项目的灵感来自维基百科。维基百科是世界上最早的大规模合作项目之一，创建于2001年，是一个共享的百科全书。他琢磨其他科学问题可以得到解决,通过一种新形式的协作,这是当他与莎拉拉纳汉,威廉·s·托德教授社会学和公共事务普林斯顿普林斯顿大学以及研究生伊恩Lundberg和亚历克斯·Kindel在美国社会学。

麦克拉纳汉是普林斯顿大学(Princeton)和哥伦比亚大学(Columbia University)“脆弱家庭与儿童健康研究”(Fragile Families and Child happiness Study)的首席研究员。该研究对1998年至2000年间出生在美国大城市的约5000名儿童进行了研究，其中未婚父母所生儿童的样本数量过多。这项纵向研究的目的是了解出生在未婚家庭的孩子的生活。

通过收集六次调查(孩子出生的时间，以及孩子1、3、5、9和15岁的时间)，该研究收集了数百万关于儿童及其家庭的数据点。另一波将在22岁时被捕获。

在研究人员设计这个挑战的时候，15岁的数据(研究人员在论文中称其为“保留数据”)还没有公开。这创造了一个机会，让其他科学家通过大规模合作来预测研究对象的生活结果。

“刚开始的时候，我真的不知道什么是大规模协作，但我知道把我们的数据介绍给一组新的研究人员是个好主意:数据科学家，”麦克拉纳汉说。

“结果让人大开眼界，”她说。“要么运气在人们的生活中扮演着重要角色，要么我们作为社会科学家的理论遗漏了一些重要的变量。”现在下结论还为时过早。”

联合组织者收到了来自世界各地68所大学的457份申请，其中包括来自普林斯顿的几个团队。

利用脆弱的家庭数据，参与者被要求预测15岁时六种生活结果中的一种或多种。其中包括儿童平均绩点(GPA);孩子毅力;家庭驱逐;家庭物质困难;主要照顾者裁员;主要照顾者参与工作培训。

这项挑战是基于“共同任务法”，这是一种在计算机科学中经常使用的研究设计，但在社会科学中却不常用。这种方法释放了部分但不是全部的数据，允许人们使用任何他们想要的技术来确定结果。目标是准确地预测保留的数据，不管达到这个目标需要多么复杂的技术。

普林斯顿大学(Princeton)计算机科学专业研究生克劳迪娅•罗伯茨(Claudia Roberts)在计算机科学副教授芭芭拉•恩格尔哈特(Barbara Engelhardt)教授的一门机器学习课程中，测试了GPA预测。在第一阶段，Roberts使用不同的算法训练了200个模型。编码工作是很重要的，她只专注于构建尽可能好的模型。“作为计算机科学家，我们常常只关心优化预测精度，”罗伯茨说。

罗伯茨为她的模特把特写镜头从1.3万调整到了1000。在Salganik和Lundberg要求她以社会科学家的身份查看数据后，她这样做了——手动遍历所有的调查问题。“社会科学家不害怕做手工工作，不害怕花时间去真正理解他们的数据。我运行了许多模型，最后，我使用了一种受社会科学启发的方法，将我的一组特征精简到与任务最相关的部分。”

罗伯茨说，这个实验很好地提醒了我们，人类是多么复杂，机器学习可能很难建模。“我们希望这些机器学习模型能够挖掘出大量数据集中的模式，而作为人类，我们没有带宽或能力去检测这些数据集。”但是你不能仅仅盲目地应用一些算法来回答一些社会上最紧迫的问题。并不是那么黑白分明。”

普林斯顿大学政治学博士生埃里克·h·王(Erik H. Wang)也有类似的经历。在所有参赛作品中，他的团队对物质困难做出了最好的统计预测。

一开始，王和他的团队发现许多被调查者没有回答的问题，这使得他们很难找到有意义的变量来进行预测。他们把传统的归算技术和一种叫做LASSO的方法结合起来，得出了339个对物质困难很重要的变量。从那里，他们再次运行拉索，这让他们更准确地预测孩子在15岁时的物质困难。

王和他的团队从结果中得出了两个观察结果:母亲的回答更有助于预测物质困难，过去的结果更有助于预测未来的结果。王说，虽然这些很难确定或因果关系;它们基本上是相互关联的。

“再现性是极其重要的。机器学习解决方案的再现性要求遵循特定的协议。另一个教训是:对于人类生命课程的结果，机器学习只能带你走这么远，”王说。

计算机科学研究生格雷格·甘德森(Greg Gundersen)遇到了另一个问题:找到最能预测结果的数据点。当时，用户必须浏览几十个pdf文件才能找到重要的问题和答案。例如，Gundersen的模型告诉他，驱逐最具预测性的变量是“m4a3”。要找到这个变量的意义，需要从原始问卷的pdf文档中挖掘出它的真正含义，即:“他/她(大部分时间)是多少个月前不再和你住在一起的?”

因此，刚德森写了一个小脚本来抓取pdf文件，提取关于变量名的元数据。刚德森在来普林斯顿大学之前是一名web开发人员。然后，他将这些元数据托管在一个小型web应用程序上，该应用程序可以通过关键字进行搜索。冈德森的工作启发了“脆弱家庭”小组，他的网站的一个更完善的版本现在可供未来的研究人员使用。

“这一挑战产生的结果令人难以置信，”Salganik说。“我们现在可以通过重用人们的代码和提取他们的技术来创建这些模拟的大规模合作，以观察不同的结果，所有这些都将帮助我们更接近于了解不同家庭之间的差异。”

该团队目前正在申请拨款以继续在这一领域的研究，他们还在美国社会学协会(American Sociological Association)新出版的开放获取期刊《社会学》(Socius)的特刊上发表了12项研究成果。为了支持这一领域的进一步研究，所有提交的挑战——代码、预测和叙事解释——都是公开的。

这项研究得到了罗素鼠尾草基金会(Russell Sage Foundation)、美国国家科学基金会(批准号为no。(1761810)、尤妮斯·肯尼迪·施莱佛国家儿童健康与人类发展研究所(批准号:P2-CHD047879)。

为脆弱家庭和儿童健康研究提供资金的是NICHD (grant nos. R01-HD36916, R01-HD39135)和一个包括罗伯特·伍德·约翰逊基金会在内的私人基金会财团。

《美国科学院院刊》(PNAS) 3月30日发表了一篇题为《用科学的大规模合作来衡量生活结果的可预测性》(measurement The of life outcomes with a scientific mass collaboration)的论文。

新闻旨在传播有益信息，英文原版地址：https://www.princeton.edu/news/2020/03/31/multi-year-datasets-suggest-projecting-outcomes-peoples-lives-ai-isnt-so-simple