过去的罪犯会再次犯罪吗?人类在这方面非常糟糕,计算机也好不到哪里去

一项新研究发现,算法的预测略胜一筹,但并非在所有情况下都如此

很难预测被判刑的罪犯是否会再次违法。

几十年来,许多研究人员认为,在预测获释罪犯是否会再次入狱方面,统计数据比人类更有效。如今,商业风险评估算法正在全国各地的法院协助进行此类预测。他们的结果可以为法律官员在量刑、保释和假释方面做出决定提供参考。尽管在过去几年中,专家们对这些工具的准确性和公正性提出了担忧,但半自动化司法的广泛采用仍在继续。最近,一篇新的科学进展 论文于周五发表,发现算法在预测获释罪犯是否会在两年内再次被捕方面优于人类。然而,参与先前研究的研究人员对这些结果提出了质疑。目前分析一致认为的一点是,没有人是完美的——人类和算法的预测都可能不准确且存在偏见。

这项新研究是对2018年科学进展 论文的直接回应,该论文发现,未经训练的人类在预测累犯方面与一种名为“惩教罪犯管理替代制裁剖析”(COMPAS)的流行风险评估软件表现相当,累犯指的是被判刑的罪犯是否会再次犯罪。这项研究引起了广泛关注,部分原因是它与人们普遍的认知相悖。临床心理学家“保罗·米尔”在1954年的一本著名著作中指出,“精算或统计预测几乎总是优于未经指导的人类判断,”弗吉尼亚大学法学院的心理学家约翰·莫纳汉说,他没有参与最近的研究,但曾与其中一位作者合作。“在过去的六十年里,大量的研究证明他是正确的。”当2018年的论文发表后,COMPAS的经销商,刑事司法软件公司Equivant(前身为Northpointe),在其网站上发布了一份官方回应,称该研究误解了风险评估程序,并质疑了所使用的测试方法。当大众科学最近联系Equivant代表时,他们表示没有其他评论可以添加到这份回应中。

为了检验2018年论文的结论,斯坦福大学和加州大学伯克利分校的研究人员最初采用了类似的方法。这两项研究都使用了COMPAS进行的风险评估数据集。该数据集涵盖了佛罗里达州布劳沃德县约7000名被告,并包括每个人的“风险因素”——重要信息,如性别、年龄、该人被指控的罪行以及其先前的犯罪次数。它还包含了COMPAS对被告在获释后两年内是否会再次被捕的预测,以及该预测是否成真的确认。通过这些信息,研究人员可以衡量COMPAS的准确性。此外,研究人员还使用这些数据创建了基于每位被告风险因素的概况或小插曲,并将这些概况展示给通过亚马逊Mechanical Turk平台招募的数百名未经训练的人员。然后,他们询问参与者,他们是否认为小插曲中的人会在两年内再次犯罪。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。


2018年的研究发现,COMPAS的准确率约为65%。个别人类的正确率略低,而人类的综合估计则略高。最近的一篇论文遵循与该论文研究人员相同的程序,证实了这些结果。“我们注意到的第一个有趣的事情是,我们实际上可以复制他们的实验,”新研究的合著者、斯坦福大学的计算社会科学家沙拉德·戈埃尔说。“但随后我们以各种方式改变了实验,并将实验扩展到其他几个数据集。”他说,在这些额外的测试过程中,算法显示出比人类更高的准确性。

首先,戈埃尔和他的团队扩大了原始实验的范围。例如,他们测试了在预测因任何罪行而被捕与预测暴力犯罪而被捕时,准确率是否会发生变化。他们还分析了多个程序的评估结果:COMPAS、另一种名为服务水平清单修订版 (LSI-R)的风险评估算法,以及研究人员自己构建的模型。

其次,该团队以几种方式调整了实验的参数。例如,之前的研究在人类受试者每次做出预测后都给予反馈,使人们可以在工作时学到更多。新论文表明,这种方法并不符合某些现实场景,在现实场景中,法官和其他法院官员可能不会立即——或者根本不会——了解他们决定的结果。因此,新研究对一些受试者给予了反馈,而对另一些受试者则没有给予反馈。“我们在那里发现,如果我们不提供即时反馈,那么人类的表现会急剧下降,”戈埃尔说。

最初研究的研究人员不同意反馈会使他们的实验不切实际的观点。朱莉娅·德雷塞尔在达特茅斯学院攻读计算机科学本科时参与了该论文的研究,目前是Recidiviz的软件工程师,Recidiviz是一家为刑事司法改革构建数据分析工具的非营利组织。她指出,Mechanical Turk上的人可能对刑事司法系统没有任何经验,而现实世界中预测犯罪行为的人则有经验。她的合著者汉尼·法里德是一位计算机科学家,他于2018年在达特茅斯工作,目前在加州大学伯克利分校工作,他也同意,在现实生活中使用COMPAS等工具的人比2018年研究中接受反馈的人拥有更多的专业知识。“我认为他们有点过于字面地理解了反馈,因为当然,法官、检察官、假释委员会和缓刑监督官拥有大量关于人们的信息,这些信息是他们多年积累的。他们会在做决定时使用这些信息,”他说。

新论文还测试了,揭示更多关于每个潜在累犯的信息是否会改变预测的准确性。最初的实验仅向预测者提供了关于每位被告的五个风险因素。戈埃尔和他的同事测试了这种情况,并将结果与他们提供另外10个风险因素时的结果进行了比较。信息量更高的情况更类似于真实的法庭场景,在真实的法庭场景中,法官可以访问关于每位被告的五个以上的信息。戈埃尔怀疑这种情况可能会让人类感到困惑,因为额外的数据可能会分散注意力。“很难以合理的方式整合所有这些事情,”他说。尽管他有所保留,但研究人员发现,人类的准确率保持不变,尽管额外的信息可以提高算法的性能。

基于更广泛的实验条件,新研究得出结论,COMPAS和LSI-R等算法在预测风险方面确实优于人类。莫纳汉认为这一发现是有道理的,他强调,人们很难对累犯做出有根据的猜测。“我不清楚,在现实生活中——当实际的法官面对许多许多可能是风险因素的事情,并且没有得到反馈时——人类法官怎么可能像统计算法那样好,”他说。但戈埃尔警告说,他的结论并不意味着应该毫无保留地采用算法。“关于在刑事司法系统中正确使用风险评估,仍然存在许多悬而未决的问题,”他说。“我不想让人们得出这样的想法,‘算法比人类更好。所以现在我们可以都回家了。’”

戈埃尔指出,研究人员仍在研究风险评估算法如何编码种族偏见。例如,COMPAS可以判断一个人是否可能再次被捕——但一个人可能在没有犯罪的情况下被捕。“因低级别犯罪而被捕将取决于警务发生在哪里,”戈埃尔说,“而警务本身就高度集中在少数族裔社区。”多年来,研究人员已经一直在探索算法中的偏见程度。德雷塞尔和法里德也在他们2018年的论文中考察了这些问题。“将人类从[循环]中移除并消除偏见这种想法的部分问题是:它忽略了一个巨大的、显而易见的问题,即历史数据充满了偏见——针对女性、有色人种、LGBTQ,”法里德说。

德雷塞尔还指出,即使在表现优于人类时,新研究中测试的风险评估工具的准确率也不是很高。“COMPAS工具的准确率约为65%,LSI-R的准确率约为70%。当您考虑到这些工具如何在法庭环境中被使用时,它们具有非常深刻的意义——如果某人在审判前被拘留数周,可能会对某人的生活产生非常重大的影响——我认为我们应该对它们提出比65%到70%的准确率更高的标准——并且仅仅比人类预测略好。”

尽管所有研究人员都同意,应该谨慎应用算法,而不是盲目信任,但COMPAS和LSI-R等工具已经在刑事司法系统中得到广泛应用。“我称之为技术乌托邦,这种认为技术可以解决我们所有问题的想法,”法里德说。“如果过去的20年教会了我们什么,那应该是这根本不是真的。”

索菲·布什维克大众科学的科技编辑。她负责网站的日常科技新闻报道,撰写从人工智能到跳跃机器人等各种主题的文章,用于数字和印刷出版物,录制YouTube和TikTok视频,并主持播客Tech, Quickly。布什维克还经常出现在广播节目(如Science Friday)和电视网络(包括CBS、MSNBC和国家地理)上。她拥有十多年的纽约市科学记者经验,此前曾在Popular ScienceDiscover和Gizmodo等媒体工作。在X(前身为Twitter)上关注布什维克 @sophiebushwick

更多作者:索菲·布什维克
© . All rights reserved.