研究表明，在预测累犯方面，算法比人做得更好

A sketch featuring a defendant and court personnel standing before a judge

法官、缓刑官、临床医生和其他人员必须对是否拘留或释放被告做出关键决定。斯坦福大学和加州大学伯克利分校的研究人员发现，由算法驱动的风险评估工具可以为决策过程提供准确的支持。(Daniel Pontet通过AP绘制)

在一项对美国刑事司法具有潜在深远影响的研究中，加利福尼亚的一组研究人员发现，在预测哪些被告日后会因为新的犯罪行为而被捕方面，算法比人类要准确得多。

斯坦福大学(Stanford University)和加州大学伯克利分校(University of California, Berkeley)的学者进行的这项新研究称，在一个受控的环境中，即使是未经训练的人，在评估少数几个变量时，也能具备复杂风险评估工具的预测能力。

但现实世界的刑事司法环境往往要复杂得多，而且当有大量因素可以用来预测累犯时，基于算法的工具表现得比人好得多。在一些测试中，这些工具在预测哪些被告可能再次被捕方面的准确率接近90%，而人类预测的准确率大约为60%。

“风险评估一直是刑事司法系统决策的一部分，”加州大学伯克利分校(UC Berkeley)专门研究刑事司法的心理学家珍妮弗·斯基姆(Jennifer Skeem)说。“尽管最近的辩论提出了关于基于算法的工具的重要问题，但我们的研究表明，在类似于真实刑事司法环境的情况下，风险评估在预测惯犯方面往往比人类判断更准确。”这与一长串将人类比作统计工具的研究是一致的。”

“经过验证的风险评估工具可以帮助司法专业人员做出更明智的决定，”斯坦福大学(Stanford University)计算社会科学家沙拉德·戈埃尔(Sharad Goel)说。“例如，这些工具可以帮助法官识别并释放那些对公共安全几乎没有威胁的人。但是，与任何工具一样，风险评估工具必须与健全的政策和人为监督相结合，以支持公平和有效的刑事司法改革。”

这篇论文——《人类对惯犯的预测极限》——发表于2020年2月14日的《科学进展》杂志上。斯基姆于2月13日在华盛顿州西雅图召开的美国科学促进会(AAAS)年会上的新闻发布会上介绍了这项研究。加入她的还有两位合著者:博士研究生荣斌(Jongbin Jung)和博士候选人林志远(Zhiyuan“Jerry”Lin)，他们都在斯坦福大学(Stanford)学习计算社会科学。

这些研究结果非常重要，因为美国正在讨论如何平衡社区安全需求，同时降低世界上最高的监禁率，这对非裔美国人和有色人种社区的影响尤为严重。

如果继续使用先进的风险评估工具并加以改进，这可能会使司法专业人员每天做出的极其重要的决定变得更加精确:哪些人可以在社区中康复，而不是在监狱中?哪些可以进入低安全级别的监狱，哪些可以进入高安全级别的监狱?哪些囚犯可以在假释后安全释放到社区?

由算法驱动的评估工具在美国得到广泛应用，应用领域从医疗保健、银行到大学录取。它们长期以来被用于刑事司法，帮助法官和其他人在做出决定时权衡数据。

但在2018年，达特茅斯大学(Dartmouth University)的研究人员对此类工具在刑事司法框架下的准确性提出了质疑。在一项研究中，他们收集了1000个刑事被告的简短描述，其中的信息来自一项被广泛使用的风险评估，即“替代制裁的罪犯管理概况”(COMPAS)。

每个小插曲都包含了累犯的五个危险因素:个人的性别，年龄，当前的刑事指控，以及以前的成年人和青少年犯罪的数量。然后，研究人员利用亚马逊的土耳其机器人平台招募了400名志愿者，让他们阅读小短文，并评估每个被告是否会在两年内再次犯罪。在回顾了每个小片段后，志愿者被告知他们的评估是否准确地预测了受试者的再犯。

人和算法的准确率都略低于三分之二。

达特茅斯大学的作者总结说，这些结果对风险评估工具和算法预测的价值提出了质疑。

这项研究引起了新闻报道的高度关注，并在美国刑事司法改革团体中引起了质疑。一些人说，如果复杂的工具在预测哪些被告会再次犯罪方面不比人们做得更好，那么使用算法就没有什么意义了，因为算法可能只会加重判决中的种族偏见。一些人认为，如此重大的决定应该由人来做出，而不是电脑。

应对复杂决策中的“噪音”

但是，当加州新研究的作者评估额外的数据集和更多的因素时，他们得出结论，风险评估工具在评估累犯可能性方面可能比人们准确得多。

这项研究重复了达特茅斯学院基于有限因素得出的结论。然而，在司法环境中可获得的信息要丰富得多，而且往往更加模糊。

这项新研究解释说:“判决前的调查报告、律师和受害者的影响陈述，以及一个人的行为举止都增加了复杂的、不一致的、与风险无关的和潜在偏见的信息。”

作者的假设是:如果研究评估是在一个真实世界的框架中进行的，在这个框架中，风险相关信息是复杂和“嘈杂的”，那么先进的风险评估工具在预测哪些罪犯会再次犯罪方面将比人类更有效。

为了验证这一假设，他们将研究范围扩大到COMPAS以外的其他数据集。除了达特茅斯研究所使用的5个风险因素外，他们还增加了10个，包括就业状况、物质使用和心理健康。他们还扩展了研究方法:与达特茅斯的研究不同，在某些情况下，志愿者在每次评估后不会被告知他们的预测是否准确。法官和法院系统的其他人员无法得到这种反馈。

结果是:在没有即时反馈来指导未来决策的复杂情况下，人类的表现“始终比风险评估工具差”。

例如，对照者在89%的情况下正确地预测了再犯，而在没有对他们的决定提供个案反馈的情况下，这一比例为60%。当提供多种风险因素并进行预测时，另一种风险评估工具可以在80%以上的情况下准确预测再犯，而人类的这一比例不到60%。

研究结果似乎支持风险评估算法的继续使用和未来的改进。但是，正如Skeem指出的，这些工具通常具有支持作用。最终的权力属于法官、缓刑官、临床医生、假释专员和其他在刑事司法系统中影响决定的人。

新闻旨在传播有益信息，英文原版地址：https://news.berkeley.edu/2020/02/14/algorithms-are-better-than-people-in-predicting-recidivism-study-says/