每十年,美国人口普查局都会清点美国的人口,力求在收集准确信息和保护数据中描述的人的隐私之间取得平衡。但当前的技术可以通过链接看似匿名的信息(例如他们的社区和年龄)来揭示一个人的跨性别身份,从而发现他们在连续的人口普查中报告的性别不同。解匿名化性别和其他数据的能力可能会给居住在试图将他们定为犯罪的州的跨性别者和家庭带来灾难。
在德克萨斯州这样的地方,为跨性别儿童寻求医疗护理的家庭可能会被指控虐待儿童,州政府需要知道哪些青少年是跨性别者才能进行调查。我们担心人口普查数据可能被用来使这种调查和惩罚更容易进行。公开发布的数据集中匿名化方式的缺陷是否会被利用来找到跨性别儿童,并惩罚他们及其家人?这与 2018 年公众强烈抗议人口普查要求人们透露公民身份的担忧类似——担心这些数据将被用来寻找在美国非法居住的人并惩罚他们。
利用我们在数据科学和数据伦理方面的专业知识,我们使用了旨在模仿人口普查局公开发布的数据集而设计的模拟数据,并试图重新识别跨性别青少年,或者至少缩小他们可能居住的范围,不幸的是,我们成功了。使用人口普查局在 2010 年使用的数据匿名化方法,我们能够识别出 605 名跨性别儿童。值得庆幸的是,人口普查局正在采用一种新的差分隐私方法,这将全面提高隐私性,但这仍然是一项正在进行中的工作。当我们查看最新发布的数据时,我们发现该局的新方法将识别率降低了 70%——好得多,但仍有改进空间。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关发现和塑造我们当今世界的想法的具有影响力的故事的未来。
即使作为研究人员,我们使用人口普查数据来回答有关美国生活的问题以开展我们的工作,但我们坚信隐私至关重要。人口普查局目前正在进行公众评议期,以设计 2030 年人口普查。提交的意见可能会影响人口普查的进行方式,以及人口普查局将如何进行数据匿名化。以下是这为何重要的原因。
联邦政府收集人口普查数据,以便就诸如国会选区的大小和形状,或如何分配资金等事项做出决策。然而,政府机构并不是唯一使用这些数据的人。经济学和公共卫生等各个领域的研究人员使用公开发布的信息来研究国家状况并提出政策建议。
但是,数据解匿名的风险是真实存在的,而且不仅仅针对跨性别儿童。在一个私人数据收集和访问强大的计算系统越来越普遍的世界中,有可能解开人口普查局构建到数据中的隐私保护措施。也许最著名的是,计算机科学家 Latanya Sweeney 表明,仅凭邮政编码、出生日期和分配的性别,几乎 90% 的美国公民都可以被重新识别出来。
在 2021 年 8 月,人口普查局做出了回应。该组织使用了密码学家首选的差分隐私方法来保护其重新划分选区的数据。数学家和计算机科学家一直被这种方法的数学优雅性所吸引,该方法涉及有意地在关键人口普查计数中引入可控的误差量,然后清理结果以确保它们保持内部一致性。例如,如果人口普查精确地统计了某个特定县有 16,147 人认定自己是美洲原住民,它可能会报告一个接近但不同的数字,例如 16,171。这听起来很简单,但县由人口普查区组成,人口普查区又由人口普查街区组成。这意味着,为了获得一个接近原始计数的数字,人口普查还必须调整每个普查街区和普查区的美洲原住民人数;人口普查局方法的艺术在于使所有这些接近但不相同的数字加起来得到另一个接近但不相同的数字。
人们可能会认为保护人们的隐私是理所当然的事情。但是一些研究人员,主要是那些工作依赖于现有数据隐私方法的研究人员,对此有不同的看法。他们认为,这些变化将使研究人员在实践中更难开展工作,而人口普查局正在防范的隐私风险在很大程度上是理论上的。
请记住:我们已经证明风险并非理论上的。以下是我们如何做到这一点的一些信息。
我们重建了每个普查街区 18 岁以下人口的完整列表,以便我们可以了解他们在 2010 年的年龄、性别、种族和民族。然后,我们将此列表与 2020 年的类似列表进行匹配,以找到现在年长 10 岁且报告性别不同的人。这种方法称为重建辅助链接攻击,只需要公开发布的数据集。当我们对其进行审查并正式提交给人口普查局时,它足够强大且令人担忧,以至于激发了来自波士顿大学和哈佛大学的研究人员联系我们,以了解更多关于我们工作的细节。
我们模拟了一个不良行为者可能做的事情,那么我们如何确保此类攻击不会发生?人口普查局正在认真对待隐私的这一方面,而使用这些数据的研究人员绝不能阻碍他们。
人口普查是在付出巨大劳动和巨大成本的情况下收集的,我们将从这项工作产生的数据中受益。但是这些数据也可能造成危害,人口普查局在保护隐私方面的工作已经取得了长足的进步,以减轻这种风险。我们必须鼓励他们继续努力。
这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。