2015年,一位忧心忡忡的父亲问了雷玛·维迪亚纳坦一个问题,这个问题至今仍萦绕在她心头。当时,在匹兹堡的一个地下室房间里,聚集了一小群人,听她解释软件如何解决虐待儿童问题。每天,该地区的热线都会接到数十个来自怀疑儿童身处险境的人的电话;其中一些电话随后会被呼叫中心的工作人员标记出来进行调查。但是,该系统并不能捕捉到所有虐待案件。维迪亚纳坦和她的同事刚刚赢得了一份价值五十万美元的合同,用于构建一种算法来提供帮助。
维迪亚纳坦是一位健康经济学家,她在新西兰奥克兰理工大学社会数据分析中心担任联合主任。她向在场听众介绍了该算法的工作原理。例如,一种在大量数据(包括家庭背景和犯罪记录)上训练的工具可以在接到电话时生成风险评分。这可以帮助呼叫筛选员标记出哪些家庭需要调查。
在维迪亚纳坦邀请观众提问后,这位父亲站起来发言。他说,他曾与毒瘾作斗争,社工过去曾将他的一个孩子从家中带走。但他已经戒毒一段时间了。如果电脑评估他的记录,他为改变生活所做的努力是否会被视而不见?换句话说:算法会对他做出不公平的判断吗?
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
维迪亚纳坦向他保证,始终会有人工干预,因此他的努力不会被忽视。但是,既然自动化工具已经部署,她仍然在思考他的问题。计算机计算越来越多地被用于引导可能改变人生的决策,包括逮捕被指控犯罪的人后拘留哪些人,调查哪些家庭可能存在虐待儿童行为,以及在一种名为预测性警务的趋势中,警察应重点关注哪些社区。这些工具承诺使决策更加一致、准确和严谨。但是,监督是有限的:没有人知道有多少工具正在使用。它们可能带来的不公平性正在引起警惕。例如,2016年,美国记者指出,一个用于评估未来犯罪活动风险的系统歧视黑人被告。

雷玛·维迪亚纳坦构建算法以帮助标记潜在的虐待儿童案件。图片来源:奥克兰理工大学
“我最担心的是,我们正在开发旨在改善问题[但]最终可能会加剧问题的系统,”人工智能现在研究所的联合创始人凯特·克劳福德说。该研究所是纽约大学的一个研究中心,专门研究人工智能的社会影响。
在克劳福德和其他人发出警告的情况下,各国政府正试图让软件更具问责制。2017年12月,纽约市议会通过了一项法案,成立一个工作组,以建议如何公开分享有关算法的信息,并调查算法是否存在偏见。2018年,法国总统埃马纽埃尔·马克龙表示,法国将公开政府使用的所有算法。在2018年5月发布的指南中,英国政府呼吁公共部门的数据工作者做到透明和负责。预计于当年5月底生效的欧洲通用数据保护条例 (GDPR) 也将促进算法问责制。
在如此活跃的活动中,科学家们正在面对关于如何使算法公平的复杂问题。像维迪亚纳坦这样与公共机构合作,试图构建负责任且有效的软件的研究人员,必须努力解决自动化工具可能如何引入偏见或固化现有不平等的问题——特别是当它们被插入到已经存在歧视的社会系统中时。
维迪亚纳坦说:“有一个相当活跃的研究人员社区,他们正试图开发方法,从外部审计这些类型的系统。”
犹他大学的理论计算机科学家苏雷什·文卡塔苏布拉马尼安指出,自动化决策工具提出的问题并非完全是新的。用于评估犯罪或信用风险的精算工具已经存在了几十年。但随着大型数据集和更复杂的模型变得普及,人们越来越难以忽视它们的伦理影响。他说:“计算机科学家别无选择,只能现在就参与进来。我们不能再只是把算法扔过围墙,然后看看会发生什么。”
公平性权衡
匹兹堡所在的阿勒格尼县人类服务部的官员在 2014 年征集自动化工具的提案时,他们尚未决定如何使用它。但他们知道他们想对新系统保持开放态度。“我非常反对将政府资金用于黑箱解决方案,因为那样我就无法告诉我的社区我们正在做什么,”该部门主任艾琳·道尔顿说。该部门有一个建于 1999 年的中央数据仓库,其中包含有关个人的大量信息,包括住房、精神健康和犯罪记录。道尔顿说,维迪亚纳坦的团队提交了一份令人印象深刻的提案,专注于儿童福利。
阿勒格尼家庭筛查工具 (AFST) 于 2016 年 8 月启动。对于拨打热线的每个电话,呼叫中心员工都会看到一个介于 1 到 20 之间的分数,该分数由自动化风险评估系统生成,其中 20 对应于被指定为最高风险的案件。这些是 AFST 预测儿童最有可能在两年内被带离家庭或再次被转介到该县的家庭,因为来电者怀疑存在虐待行为(该县正在逐步取消第二个指标,该指标似乎不能密切反映需要进一步调查的案件)。
斯坦福大学的独立研究员杰里米·戈德哈伯-菲伯特仍在评估该工具。但道尔顿说,初步结果表明它正在发挥作用。她说,呼叫中心工作人员转介给调查人员的案件似乎包括更多合法的担忧案例。呼叫筛选员似乎也在对具有相似情况的案件做出更一致的决定。尽管如此,他们的决定不一定与算法的风险评分一致;该县希望使两者更紧密地结合起来。

在 AFST 部署期间,道尔顿希望获得更多帮助,以确定它是否可能存在偏见。2016 年,她聘请卡内基梅隆大学的统计学家亚历山德拉·乔尔德科娃分析该软件是否歧视特定群体。乔尔德科娃此前一直在思考算法中的偏见问题——并且即将对一个引发了关于该问题的大量辩论的案例发表看法。
2016 年 5 月,新闻网站 ProPublica 的记者报道了佛罗里达州布劳沃德县法官使用的商业软件,该软件有助于决定被指控犯罪的人是否应在审判前获释。记者称,该软件对黑人被告存在偏见。该工具名为 COMPAS,生成的分数旨在衡量一个人在获释后两年内再次犯罪的可能性。
ProPublica 团队调查了数千名被告的 COMPAS 分数,这些分数是通过公共记录请求获得的。通过比较黑人被告和白人被告,记者发现,不成比例数量的黑人被告是“误报”:他们被 COMPAS 归类为高风险,但随后并未被指控犯下另一起罪行。
该算法的开发者,一家总部位于密歇根州的公司 Northpointe(现为俄亥俄州坎顿的 Equivant)辩称,该工具不存在偏见。该公司表示,COMPAS 在预测被归类为高风险的白人或黑人被告是否会再次犯罪方面同样有效(这是预测均等概念的一个例子)。乔尔德科娃很快表明,Northpointe 和 ProPublica 的公平性衡量标准之间存在张力。如果两个群体之间存在差异(例如,白人和黑人被再次逮捕的比率),则预测均等、相等的误报率和相等的误报率都是“公平”的方式,但在统计学上不可能调和[参见上文“如何定义‘公平’”]。伦敦大学学院负责任的机器学习研究员迈克尔·维尔说:“你不可能拥有一切。如果你想在某个方面做到公平,你可能必然会在另一个听起来也很合理的定义中变得不公平。”
事实上,从数学上讲,定义公平性的方法甚至更多:在 2018 年 2 月的一次会议上,计算机科学家阿文德·纳拉亚南发表了题为“21 种公平性定义及其政治”的演讲——他指出,还有其他定义。一些研究过 ProPublica 案例的研究人员,包括乔尔德科娃,指出,不平等的错误率是否表明存在偏见尚不清楚。斯坦福大学的计算机科学家沙拉德·戈埃尔说,相反,它们反映了一个群体比另一个群体更难做出预测的事实。“事实证明,这或多或少是一个统计伪影。”
对于某些人来说,ProPublica 案例突显了许多机构缺乏资源来要求和正确评估算法工具的事实。“如果说有什么的话,那就是它向我们表明,雇用 Northpointe 的政府机构没有给他们一个明确的定义来处理,”卡内基梅隆大学的拉伊德·加尼说。“我认为政府需要学习并接受培训,了解如何要求这些系统,如何定义他们应该衡量的指标,并确保供应商、顾问和研究人员提供给他们的系统实际上是公平的。”
阿勒格尼县的经验表明,驾驭这些问题有多么困难。正如要求的那样,当乔尔德科娃在 2017 年初开始挖掘阿勒格尼数据时,她发现其工具也存在类似的统计失衡。她说,该模型有一些“非常不受欢迎的属性”。跨种族和族裔群体的错误率差异远高于预期。而且,出于仍然不清楚的原因,被算法评为虐待儿童最高风险的白人儿童被带离家庭的可能性低于被给予最高风险评分的黑人儿童。阿勒格尼和维迪亚纳坦的团队考虑切换到不同的模型。乔尔德科娃说,这可能有助于减少不平等现象。
虽然统计失衡是一个问题,但算法中潜藏着更深层次的不公平性——它们可能会加剧社会不公正现象。例如,像 COMPAS 这样的算法可能声称可以预测未来犯罪活动的可能性,但它只能依赖于可衡量的指标,例如被逮捕。而警务实践的差异可能意味着某些社区成为不成比例的目标,人们因在其他社区可能被忽视的罪行而被捕。“即使我们正在准确地预测某些事情,我们准确预测的事情也可能是强加不公正,”华盛顿特区非营利性社会正义组织 Upturn 的常务董事大卫·罗宾逊说。很大程度上取决于法官在多大程度上依赖此类算法来做出他们的决定——对此知之甚少。
阿勒格尼的工具也受到了类似的批评。作家兼政治学家弗吉尼亚·尤班克斯认为,无论算法是否准确,它都在对有偏见的输入采取行动,因为黑人和混血家庭更有可能被举报到热线。此外,由于该模型依赖于阿勒格尼系统中的公共服务信息——并且由于使用此类服务的家庭通常很贫困——该算法通过使贫困家庭受到更多审查而不公平地惩罚了他们。道尔顿承认,可用数据是一个限制,但她认为该工具是必要的。“贫困这种不幸的社会问题并不能否定我们有责任提高我们对那些引起我们注意的儿童的决策能力,”该县在 2018 年发布在 AFST 网站上的对尤班克斯的回应中说。
透明度及其局限性
尽管一些机构构建了自己的工具或使用商业软件,但学者们发现自己在公共部门算法方面的工作需求量很大。在芝加哥大学,加尼与包括芝加哥公共卫生部门在内的多个机构合作,开发了一种工具来预测哪些房屋可能存在有害铅。在英国,剑桥大学的研究人员与达勒姆县的警方合作,开发了一个模型,帮助确定将谁转介到干预计划,以替代起诉。2018 年,戈埃尔和他的同事启动了斯坦福计算政策实验室,该实验室正在与政府机构(包括旧金山地方检察官办公室)进行合作。地方检察官办公室的分析师玛丽亚·麦基说,与外部研究人员的合作至关重要。“我们都有一种什么是对的和什么是公平的感觉,”她说。“但我们通常没有工具或研究来准确地、机械地告诉我们如何实现目标。”
人们对阿勒格尼采取的更透明的方式有很大的需求,阿勒格尼与利益相关者进行了接触,并向记者敞开了大门。人工智能现在研究所的克劳福德说,当算法是“不开放算法审计、审查或公开辩论的闭环”时,算法通常会加剧问题。但尚不清楚如何最好地使算法更加开放。加尼说,仅仅发布模型的所有参数并不能提供太多关于其工作原理的见解。透明度也可能与保护隐私的努力相冲突。在某些情况下,披露过多关于算法如何工作的信息可能会让人们利用该系统。
戈埃尔说,问责制的一个主要障碍是,机构通常不收集有关工具如何使用或其性能的数据。“很多时候,没有透明度是因为没有什么可分享的。”
克劳福德说,需要一系列“正当程序”基础设施来确保算法具有问责制。2018 年 4 月,人工智能现在研究所为有兴趣负责任地采用算法决策工具的公共机构概述了一个框架;除其他外,它呼吁征求社区意见,并赋予人们对针对他们做出的决定提出申诉的能力。

新泽西州卡姆登的警察使用自动化工具来帮助确定哪些区域需要巡逻。图片来源:Timothy A. Clary 法新社/盖蒂图片社
许多人希望法律能够强制执行这些目标。康奈尔大学研究人工智能伦理和政策问题的研究员索隆·巴罗卡斯说,这有一些先例。在美国,一些消费者保护规则在对公民的信用做出不利决定时,允许公民获得解释。维尔说,在法国,早在 1970 年代就可以找到赋予解释权和质疑自动化决策能力的立法。
最大的考验将是 2018 年 5 月 25 日生效的欧洲 GDPR。一些条款——例如,在自动化决策的情况下,有权获得有关所涉及逻辑的有意义的信息——似乎促进了算法问责制。但英国牛津互联网研究所的数据伦理学家布伦特·米特尔施塔特说,GDPR 实际上可能会通过为那些想要评估公平性的人创建一个“法律雷区”来阻碍它。测试算法是否在某些方面存在偏见的最佳方法——例如,它是否偏袒某个种族而不是另一个种族——需要了解进入系统的人的相关属性。但 GDPR 对使用此类敏感数据的限制非常严格,处罚也非常高,米特尔施塔特说,有能力评估算法的公司可能几乎没有动力处理这些信息。“这似乎将限制我们评估公平性的能力,”他说。
GDPR 条款的范围也受到质疑,这些条款可能会让公众深入了解算法并有能力提出申诉。顾名思义,一些 GDPR 规则仅适用于完全自动化的系统,这可能会排除算法影响决策但应该由人工做出最终决定的情况。米特尔施塔特说,细节最终应该在法庭上澄清。
审计算法
与此同时,研究人员正在推进检测未公开供公众审查的算法中偏见的策略。巴罗卡斯说,公司可能不愿意讨论他们如何努力解决公平性问题,因为这将意味着承认一开始就存在问题。即使他们这样做,他们的行动也可能改善偏见,但不能消除偏见,他说,“因此,任何关于此事的公开声明都不可避免地是对问题仍然存在的承认。”微软和 Facebook 都宣布开发了检测偏见的工具。
一些研究人员,如东北大学的计算机科学家克里斯托·威尔逊,试图从外部揭示商业算法中的偏见。例如,威尔逊创建了冒充正在寻找 Uber 乘车的虚假乘客,并将虚假的简历上传到一个招聘网站,以测试性别偏见。其他人正在构建他们希望可以在自我评估中普遍使用的软件。2018 年 5 月,加尼和他的同事发布了名为 Aequitas 的开源软件,以帮助工程师、政策制定者和分析师审计机器学习模型是否存在偏见。对算法决策的危险直言不讳的数学家凯西·奥尼尔成立了一家公司,该公司正在私下与公司合作审计他们的算法。
一些研究人员已经在呼吁在刑事司法应用和其他领域退后一步,从狭隘地关注构建做出预测的算法。例如,一种工具可能擅长预测谁将不出庭。但最好问问人们为什么不出庭,也许可以设计干预措施,例如短信提醒或交通援助,这可能会提高出庭率。“这些工具通常所做的只是帮助我们在边缘进行修补,但我们需要的是全面的变革,”纽约大学法学院的民权律师和种族正义倡导者文森特·萨瑟兰说。尽管如此,他说,围绕算法的激烈辩论“迫使我们所有人提出并回答关于我们正在使用的系统以及它们的运作方式的真正棘手的基本问题。”
维迪亚纳坦目前正在将她的虐待儿童预测模型扩展到科罗拉多州的道格拉斯和拉里默县,她认为即使算法嵌入其中的总体系统存在缺陷,构建更好的算法也很有价值。尽管如此,“算法不能像直升机空投一样被投放到这些复杂的系统中,”她说:它们必须在了解更广泛背景的人的帮助下实施。但即使是最好的努力也会面临挑战,因此在没有直接答案和完美解决方案的情况下,她说,透明度是最好的政策。“我总是说:如果你不能做到正确,那就做到诚实。”
本文的早期版本于 2018 年发表在 《自然》杂志 上。