在澳大利亚,他们称之为“机器人债务”:一种自动化债务追讨系统,给依赖或曾经依赖社会救助的人们带来了恐惧、焦虑、愤怒和羞耻。2016年,该国的人类服务部推出了一种新的计算福利受益人年收入的方法,并开始向那些被认定为多领福利的人发送自动催债信。新的会计方法意味着可以将每两周的收入平均化来估算全年的收入——这对那些从事合同工、兼职或不稳定工作的人来说是个问题。报告显示,该系统每年发送的催债通知从2万份增加到每周发送多达2万份。
此前,当系统识别出某人可能多领了福利时,会由人工负责调查该案件。然而,在自动化系统下,这个步骤被取消了;相反,证明自己没有多领福利成了接受者的责任。这意味着要找出自己被盯上的原因——通常需要花费数小时的电话沟通——并翻出远至七年前的工资单副本。更糟糕的是,许多催债通知被发送给了已经生活在困境中的人们。那些被针对的人感到无能为力,因为他们几乎没有时间和资源来挑战这个系统。《报纸》报道了至少一起自杀事件。一家社会服务组织最终报告说,它调查的催债通知中有四分之一是错误的,澳大利亚参议院的一项调查得出结论,认为“程序公平的根本缺失”贯穿了整个过程。2019年,经过多年的行动主义、公民社会动员以及政治和法律挑战,一位法官裁定该系统非法,一项集体诉讼于2020年以12亿美元达成和解。
我们已经进入了“数据化时代”,世界各地的企业和政府都在获取新型信息,连接他们的数据集,并更多地利用算法和人工智能来获得前所未有的洞察力,并做出更快、据称更高效的决策。我们尚不完全了解所有的影响。然而,关于我们每个人的惊人信息量,加上新的计算能力,确实意味着我们变得无限可知——同时我们在质询和挑战我们的数据如何被使用方面的能力有限。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。
在威尔士卡迪夫大学的数据公正实验室,我们维护着一个数据危害记录,这是一个持续记录全球各地报告的自动化和算法系统问题的日志。我们分析这份记录,以了解这些系统出错的各种方式、公民团体如何应对新出现的问题,以及政府机构和法律系统如何应对这些挑战。我们希望,我们的研究将使人们更深入地了解民主制度可能需要如何演变,才能在大数据时代更好地保护人民——特别是边缘化群体。
加剧不平等
机器人债务丑闻是众多表明许多新兴数据系统中都包含权力失衡的案例之一。为了理解发生了什么,我们需要回答诸如以下问题:为什么一个错误率如此之高的系统在没有为公民提供充分的正当程序保护的情况下就被引入?为什么在推出之前没有进行稳健的影响评估?为什么在设计在线门户或帮助热线时没有充分考虑受影响者的需求?以及为什么取消人工监督被认为是允许的?它以及许多其他数据驱动系统的问题,很大程度上源于潜在的社会和政治背景——具体而言,长期存在的“值得”和“不值得”公民的二元对立,这影响了他们如何被重视和对待。
事实上,正如澳大利亚墨尔本大学的数学家西蒙·威廉姆斯在谈到机器人债务案件时指出的那样,自动化系统中一定程度的错误是不可避免的:总是会出现误报和漏报,而这种差异应该导致更广泛的审查,以及在实施此类计划之前进行影响调查和辩论。
麻省理工学院媒体实验室的乔伊·布奥拉姆维尼的研究对于影响企业和政府机构重新思考他们对面部识别技术的使用至关重要。2016年,布奥拉姆维尼创立了算法公正联盟。她与蒂姆尼特·格布鲁合作进行的性别阴影研究发现,面部识别技术通常表现出肤色和性别偏见。研究的系统最准确地识别白人男性,并且对于较深肤色的人表现出更高的错误率,其中肤色较深的女性的错误率最高。鉴于这些系统可能会影响您的旅行能力或获得政府服务的能力,或者可能导致错误逮捕,这些错误率是一个特别严重的问题。布奥拉姆维尼认为,系统错误的部分原因是机器学习算法是在主要包含白人面孔的数据集上训练的。设计这些系统的高科技公司的员工大多是白人——这种失衡可能会限制发现和解决偏见的能力。
同样,新闻机构ProPublica的一项调查发现,预测被指控犯罪的人再次犯罪的可能性算法,在错误地将黑人被告列为高风险方面,是白人被告的两倍。美国各地都在使用类似的评分系统,并且可能会影响判刑、保释金以及获得康复而不是入狱的机会。由于这些模型是专有的,因此很难知道为什么会发生这种情况,但这似乎与算法分配给诸如就业、贫困和家庭历史等因素的权重有关。从不平等世界中提取的数据将反映这种不平等,并且往往最终会加剧这种不平等。
令人不安的是,研究人员发现,处于顶层的人——设计者和管理者——通常未能认识到他们正在引入的系统的局限性。例如,底层数据集可能包含错误,或者它们可能是从其他不太兼容的数据集中编译而来的。而且,实施者通常也意识不到可能在实地造成问题的官僚或基础设施复杂性。他们通常未能评估新系统对边缘化人群的影响,或咨询那些确实具有必要经验和知识的人。当算法取代人为判断时,它们消除了来自受影响者的纠正性反馈,从而加剧了问题。
在其他时候,危害源于大数据的使用方式。我们的数据“尾气”——我们在网上交流、旅行和进行交易时产生的数据——可以与其他数据集结合起来,构建关于我们的详细个人资料,并对我们进行分类和定位。人们可以根据宗教、性偏好、疾病、财务脆弱性等等来识别。例如,世界隐私论坛的帕姆·迪克森发现,数据经纪人(聚合和销售消费者数据的公司)提供了一系列有问题的数据列表,例如患有成瘾行为或痴呆症的人以及强奸受害者等等。研究2008年金融危机的研究人员发现,银行已经将线下和线上数据结合起来,对客户进行分类和影响。2012年,美国司法部与富国银行达成了1.75亿美元的和解协议,原因是富国银行被指控系统性地将黑人和西班牙裔借款人推向成本更高的贷款。
总的来说,数据系统可能造成的损害种类繁多。这些可能包括数据泄露造成的隐私泄露;工作场所监控迫使人们承担超出其能力的工作而造成的身体伤害;保险费率和利率的提高;以及基本必需品的丧失,例如食物、家庭护理和医疗保健。在不平等的社会中,它们进一步巩固了社会和历史歧视。
异议的必要性
当人们试图挑战数据危害时会发生什么?迄今为止,我们已经调查了澳大利亚、加拿大、荷兰、新西兰、英国和美国政府使用新数据系统的案例。即使在这些民主社会中,仅仅依靠法律系统也可能需要数年时间,在此期间,宝贵的精力和资源被耗尽,而家庭却陷入危机。公民们正在将他们的时间和资源集中起来,进行集体和多管齐下的努力,其中包括民主的所有支柱。
在机器人债务案件中,受影响者创建了一个“非我的债务”运动,用于匿名发布他们的故事、获得帮助和分享资源。维多利亚法律援助刑事法执行主任丹·尼科尔森表示,该组织难以发起联邦法院的挑战,部分原因是,在人类服务部向媒体泄露了一位批评者的私人详细信息后,人们不愿公开露面。该组织后来确实在2019年成功挑战了该系统。尼科尔森最担心的问题之一是,政府如何将证明无债务的责任转移给个人公民,尽管政府在汇编证据方面具有巨大优势。
在荷兰,个人和组织共同成功地对政府提起了法院诉讼,反对系统风险指示(SyRI),该系统将公民数据联系起来以预测谁可能犯下欺诈行为。诉讼者认为,该系统侵犯了公民的权利,因为它将所有人视为有罪,直到被证明无罪。2020年,海牙地方法院裁定SyRI违反了《欧洲人权公约》。这个法庭案件可能会激励其他民主国家的公民寻求保护自己的权利并扩大危害的定义。
在英国,defenddigitalme等组织正在对学校网络监控软件的心理和社会影响,以及它可能损害被错误标记为有自杀倾向或帮派成员的学生的方式提出担忧。在新西兰,非政府组织(NGO)成功阻止了社会发展部要求所有社会服务提供者提供关于其客户的数据才能获得政府资助的企图。非政府组织认为,这项要求可能会促使已经处于边缘地位的群体成员,例如难民或家庭暴力受害者,因为害怕被识别而避免寻求帮助。
在阿肯色州小石城,该州人类服务部引入的一种算法被指责不公正地削减了重度残疾人士的家庭护理时间。此前,家庭护理护士决定家庭护理时间。变更后,他们帮助人们填写调查问卷并将数据输入计算机系统——然后由算法决定。政府代表辩称,自动化系统确保家庭护理时间的分配是公平和客观的。一些人强烈反对,并在阿肯色州法律援助的帮助下,其中七人将该部门告上法庭。六人的每周家庭护理时间被削减了30%以上。法庭文件令人不寒而栗,每位原告都叙述了削减对其生活和健康的影响。
阿肯色州法律援助律师凯文·德利班通过法院命令提取的关于该算法的信息,发现该算法及其实施方式存在许多问题。2018年5月,一位法官命令人类服务部停止使用该算法,但该机构拒绝了——随后法官裁定该部门藐视法庭。挑战最终获得成功,该机构于2018年停止使用该算法。
这些案例说明了集体动员在保护人们免受数据系统造成的不公正待遇方面的重要性。对于个人而言,由于资源相对有限或无法获得关于数据系统的内部信息,很难单独质询这些系统或在受到伤害时寻求补救。除了发起集体挑战外,还需要就保护公民权利所需的数据系统的透明度、问责制和监督进行更广泛的公众讨论。此外,应该如何传达关于这些新系统的信息,以便每个人都能理解?政府在确保数据素养方面有何义务?是否存在禁区?当然,作为民主问责制的第一步,应该提供政府在何处以及如何引入数据系统以及共享人民数据的地图。
同样重要的是确保公民能够有意义地挑战影响他们的系统。鉴于数据化系统总是容易出错,人为反馈变得至关重要。应该欢迎批评,而不是抵制。有必要对治理进行根本性的反思——特别是关于数据系统如何在系统性歧视和暴力的漫长历史中发挥作用的问题,关于异议和协作对于民主运作的必要性,以及公共机构和当局如何在不平等和数据渗透的社会中更好地促进两者的问题。