美国国家标准与技术研究院如何测试面部识别算法的种族偏见

某些算法在识别白人面孔方面表现好 100 倍

面部识别技术已经被用于从解锁手机到识别潜在罪犯等各种应用。尽管取得了进展，但它仍然因种族偏见而受到抨击：许多成功识别白人面孔的算法仍然无法正确识别有色人种。上周，美国国家标准与技术研究院 (NIST) 发布了一份报告，显示了全球 99 家开发商提交的 189 种人脸识别算法在识别不同人口统计数据的人时的表现。

除其他发现外，美国国家标准与技术研究院的测试显示，许多此类算法错误识别黑人或东亚人面孔照片的可能性是白人面孔的 10 到 100 倍。在数据库中搜索给定面孔时，它们在黑人女性中选择错误图像的比例明显高于其他人口统计数据。

这份报告是美国国家标准与技术研究院称为人脸识别供应商测试 (FRVT) 的一项计划的最新评估的第三部分，该计划评估不同人脸识别算法的功能。“我们希望能够为有意义的讨论提供信息，并为决策者、政策制定者和最终用户提供经验数据，让他们了解该技术的准确性、实用性、功能[和]局限性，”美国国家标准与技术研究院图像组经理克雷格·沃森说。“我们希望最终用户和政策决策者看到这些结果并自己做出决定。”《大众科学》采访了沃森，了解他的团队如何进行这些评估。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。

【以下是访谈的编辑版文字记录。】

什么是人脸识别供应商测试计划？

这是人脸识别核心算法测试。第一部分关注一对一验证准确性：算法在拍摄两张图像后，能够多好地判断它们是否是同一个人？一个应用就像您的手机：当您打开手机时，如果您使用的是人脸识别，您会将您的脸展示给手机。它会说：“您是可以访问这部手机的人吗？”

然后，第二部分关注一对多识别。这是针对未知图像库进行搜索。如果图库中有匹配项，算法是否可以准确返回该匹配项？可以进行一对多搜索来访问设施：理想情况下，有人会走进去，展示他们的生物识别信息。它会与允许访问的人员进行比较，然后他们将被自动授予访问权限。执法部门也使用它——搜索潜在的犯罪数据库以找出某人是否在该数据库中。我想指出的是，从算法返回的所有内容通常都会交给人工审核。

然后，第三部分是查看一对一和一对多应用程序的人口差异，[以查看]算法在数据集中的不同人口统计数据中的表现是否不同。

第三部分的结果是什么？

我们报告两种类型的错误：假阳性和假阴性。假阳性是指当算法说两张照片是同一个人时，实际上它们不是。假阴性是指当算法说两张照片不是同一个人时，实际上它们是同一个人。如果您尝试访问您的手机，并且您展示了您的脸，但它不允许您访问，这就是假阴性。在这种情况下，这可能是不方便的——您可以再次展示，然后您就可以访问您的手机。如果您正在进行设施访问控制，那么假阳性会让系统所有者感到担忧，因为假阳性会允许不应允许的人员进入设施。然后，如果您进入执法视角，这会将可能不应该出现在列表中的候选人放入列表中。

我们发现的一件事是，提交的大多数算法都表现出一定程度的人口差异。我们发现假阳性通常高于假阴性。它们在大多数算法中都存在一定程度，但实际上并非所有算法都存在。在一对一中，性能非常广泛。某些算法在某些人口统计数据中（相对于其他人口统计数据）的错误率显着增加，最多达 100 倍。这有点像是最坏的情况。但也有较低的错误率，算法表现更好。因此，这里的重点是性能确实存在很大差异。我们强烈建议大家在做出决策时了解您的算法、了解您的数据并了解您的应用。

在亚洲国家开发的算法在非白人面孔方面似乎表现更好。该报告对此有何评价？

具体来说，它所谈论的是在亚洲国家开发的算法在亚洲面孔方面没有人口差异。这表明算法训练所用的数据有望提高这些性能。我们不清楚具体来说算法是如何训练的。我们只是做出某种程度的假设，即亚洲国家的算法比大多数其他算法用更多的亚洲面孔进行训练。

那么为什么美国的开发人员没有用更多样化的面孔来训练他们的算法呢？

当您进入这些深度学习和卷积神经网络时，您需要大量数据并访问这些数据。这可能并非易事。

美国国家标准与技术研究院从哪里获得这些测试的照片和数据？

我们有其他机构赞助商提供大量匿名运营数据。在此特定测试中，我们有四个数据集。我们有联邦调查局提供的国内嫌疑犯照片、移民福利申请照片、国务院提供的签证申请照片以及国土安全部提供的从美国入境的旅客的边境过境照片。我想指出的是，这些数据在与美国国家标准与技术研究院共享之前，会经过人类受试者审查、法律审查和隐私审查。

这些是海量数据。在这种情况下，大约有 1800 多万张图像，涉及 800 多万个对象，这使我们能够进行此项测试。这些数据附带各种元数据——例如，对于联邦调查局嫌疑犯照片，其种族类别为黑人或白人。然后，我们可以使用这些元数据来执行这些人口差异分析。对于国土安全部的数据，我们有出生国家，我们将其用作种族的替代品，我们可以将数据划分为全球七个不同区域的类别。然后，我们还可以获得大部分数据的年龄和性别，这使我们能够进行此分析。

这些数据被隔离在美国，我们不会共享它们。我们所做的是开发一个 [应用程序编程接口 (API)] 来驱动测试。因此，我们拥有美国国家标准与技术研究院的所有硬件。我们在此端编译驱动程序，它链接到他们的软件，然后我们在我们的硬件上运行它。该 API 只是关于控制负载如何在我们的硬件上分配——我们如何访问图像。因此，它关系到对此端测试的控制——也关系到数据的控制。