在今天的刑事司法系统中,有超过 400 种算法 在市场上流通,为量刑和假释等重要的法律决策提供信息。就像保险公司 使用算法来设定保费 一样,法官使用风险评估算法来估计某人在判处监禁时再次犯罪的可能性。一般来说,与高风险罪犯相比,低风险罪犯可以并且确实会获得较短的刑期。
科学家和法律倡导者 批评 这些算法的使用,认为它们 带有种族偏见,操作方式不透明,并且对于应该区别对待每个人的刑事司法系统来说过于笼统。然而,很少有人关注 这些算法是如何变成这样的 ——它们是如何在投入使用之前被开发和验证的。就儿童色情犯罪者而言,心理学专家在刑事司法系统中广泛使用一种算法,但很少考虑其开发,更重要的是,其准确性。鉴于儿童色情犯罪的严重后果,使用未经验证且准确性未知的算法是危险的。
该算法被称为 儿童色情犯罪者风险工具 (CPORT)。佐治亚州使用 CPORT 来确定哪些被判犯有性犯罪的罪犯应被列入公开的性犯罪者登记册,专家们通常在全国各地的量刑听证会上就 CPORT 风险评估的结果作证。人们可能会认为有可靠的科学证据支持 CPORT 在美国罪犯身上的有效性。这种假设是不正确的。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。
去年,我们发表了 对 CPORT 的详细方法论批判。除其他外,我们注意到用于开发该工具的样本非常小。CPORT 是通过研究来自加拿大安大略省的 266 名儿童色情犯罪者开发的,这些犯罪者在 1993 年至 2006 年期间获释。在获释后的五年内,有 29 名罪犯被指控或被判犯有新的性犯罪。
基于 29 名再犯者开发算法是令人担忧的,因为 小样本量使统计模型不稳定 并且无法推广到更广泛的儿童色情犯罪者群体。其他众所周知的风险因素,例如 接触儿童 或专注于儿童色情,在这个样本中不是预测性风险因素,因此未包含在 CPORT 中。
更重要的是,鉴于自 2006 年以来用于访问、存储和传输儿童色情内容的技术发生了巨大变化——CPORT 开发样本就是在那时收集的,CPORT 的开发数据可能已经过时。手机和其他互联网技术直到 2006 年之后才得到广泛使用,这极大地 改变和扩大了在线儿童色情犯罪的发生方式。访问互联网是儿童色情犯罪者的 常见特征,但它未包含在 CPORT 中。
相比之下,公共安全评估算法(法官使用该算法来确定被指控的人在等待审判期间再次犯罪的风险)是通过分析来自美国各地 300 多个司法管辖区 的数千名被告的数据创建的。重要的是,它在投入使用前已在当地司法管辖区 获得验证。如此大规模和多样化的测试是有效风险评估的基石:即使是最有前途和 广为人知的模型 也已被证明在 应用于新数据集时会崩溃。
与公共安全评估算法不同,CPORT 研究人员使用来自加拿大安大略省同一司法管辖区的 80 名罪犯进行了“验证研究”。这个样本只有 12 名再犯者!其令人费解的结果证明了依赖小样本的危险:当仅限于信息完整的案例时,CPORT 分数不能预测再犯,但当包含信息不完整的案例时,它们可以预测再犯。换句话说,当缺少相关信息时,该算法“有效”,但当仅限于信息完整的案例时,该算法无效。
我们还回顾了其他研究人员进行的研究——这是一个至关重要的步骤,因为测试开发者进行的研究往往会获得更好的结果。测试开发者对其工具的推广和成功具有既得利益,这可能会有意识或无意识地影响其结果。但即使是这些独立研究也存在科学严谨性不足的问题。例如,一项 来自西班牙的研究只有 6 名再犯者,并且该研究在 97% 的案例中缺少信息。所有研究均未在美国罪犯身上进行。
根据对现有研究基础的详尽和详细分析,我们得出结论,“目前在美国对仅犯有儿童色情罪的罪犯使用 CPORT 是不合适的。” 相比之下,尽管 指出 “尚不清楚该量表在不同样本/设置中的表现如何,并且目前尚无足够的数据来产生可靠的再犯估计值”,但 CPORT 开发团队 声称“该量表已准备好使用,[但] 鉴于其背后的研究基础有限,应谨慎使用。”
在我们发表文章后,联邦缓刑和审前服务办公室 (PPSO) 的研究人员在美国联邦儿童色情犯罪者的样本中测试了 CPORT,该样本包含 5,700 名在 2010 年至 2016 年期间获释的罪犯。五年内,有 5% 的人因新的性犯罪被再次逮捕。经过测试,CPORT 表现出“平庸的预测”性能,“没有达到 CPORT 开发者报告的 [值]”。因此,PPSO 决定不使用 CPORT 来为关于对假释中的儿童色情犯罪者进行必要监管级别的决策提供信息。
尽管 PPSO 有调查结果、我们的批评以及在美国任何样本中都缺乏验证,但 CPORT 开发团队仍然坚持认为“CPORT 可以合理用于评估风险”并正在推广其使用。
使用未经验证的算法(如 CPORT)对公共安全和被告人的自由构成重大威胁。不准确的预测算法提供了基于科学的精确性和准确性的假象。但这种假象是虚幻的,实际上,基于这些算法的法律决策会导致重大错误,并带来可怕的后果:非危险罪犯被监禁的时间超过必要时间,而危险罪犯则被释放去犯下未来的罪行。
继续使用未经验证的风险评估工具也会阻碍对替代算法的研究。证据 表明,在本地数据上开发的“本土”风险评估算法在预测其管辖范围内个人的再犯方面,可能比 CPORT 等“现成”算法更准确。然而,当决策者可以立即使用已创建的东西时,创建本地开发的算法所需的时间和资源远远超过了。
除非在应用风险评估算法的司法管辖区开发并成功验证了风险评估算法,否则使用风险评估算法会使我们所有人处于风险之中。
这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。