“匿名”数据无法保护您的身份

一项新的研究表明,在据称隐身的数据集中识别个人身份出乎意料地容易

匿名化数据并不像我们想象的那么匿名。

世界每天产生大约 2.5 百万兆字节的数字数据,这进一步扩充了信息海洋,其中包含许多人健康和习惯的私密细节。为了保护隐私,数据经纪人在与研究人员和营销人员共享记录之前,必须对这些记录进行匿名化处理。但一项新的研究发现,即使数据集不完整,从据称匿名化的数据集中重新识别一个人也相对容易。

海量数据存储库可以揭示趋势,从而使医学研究人员了解疾病,展示诸如收入不平等的影响等问题,指导人工智能实现类人行为,当然,还可以更有效地进行广告投放。为了保护那些(有意或无意)向这些数字仓库贡献个人信息的人们,大多数经纪人都会对他们的数据进行去识别化处理。此过程包括删除明显的标记,包括姓名和社会安全号码,有时还会采取其他预防措施,例如向集合中引入随机的“噪声”数据,或用一般细节替换特定细节(例如,将“1990 年 3 月 7 日”的出生日期替换为“1990 年 1 月至 4 月”)。然后,经纪人发布或出售这部分信息。

伦敦帝国学院计算隐私学助理教授,新研究的合著者 Yves-Alexandre de Montjoye 说:“数据匿名化基本上是我们过去 25 年来如何在保护人们隐私的同时,将数据用于统计目的和研究的方式。”该研究本周发表在《自然通讯》(Nature Communications) 上。然而,许多常用的匿名化技术起源于 20 世纪 90 年代,当时互联网的快速发展尚未使收集如此大量的关于个人健康、财务以及购物和浏览习惯等方面的详细信息成为可能。这种差异使得将匿名数据行与特定人员联系起来相对容易:如果一位私家侦探在纽约市寻找某人,并且知道该对象是男性,年龄在 30 到 35 岁之间,并且患有糖尿病,那么这位侦探将无法推断出该男子的姓名,但如果他还知道目标对象的生日、子女数量、邮政编码、雇主和汽车型号,则很可能很容易做到这一点。


支持科学新闻事业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


在过去几年中,Montjoye 和其他研究人员发表了一些研究,从匿名购物数据或健康记录等数据集中重新识别了个人。有些人认为,重新识别的风险相对较低,因为这些数据集通常仅反映了人口的一小部分,这造成了任何特定人员是否包含在列表中的不确定性。但是,这项新研究开发了一个统计模型,以计算任何匿名数据条目与其真实身份相关联的可能性。研究发现,即使在处理不完整的数据集时,这样做也令人不安地容易。

Montjoye 说:“在美国,平均而言,如果您有 15 个特征(包括年龄、性别或婚姻状况),就足以在任何匿名数据集中以 99.98% 的概率重新识别美国人。” 虽然 15 条人口统计信息听起来很多,但就实际存在的信息而言,这只是沧海一粟:2017 年,一家营销分析公司因意外发布匿名数据集而陷入困境,该数据集包含 1.23 亿美国家庭中每个家庭的 248 个属性。

这会对您的个人数据构成多大的风险?对于这项新研究,研究团队创建了一个数字工具,允许个人互联网用户查看他们从匿名信息转储中被重新识别的可能性有多大。根据此工具,其普通用户有 83% 的重新识别风险。而且,在选择退出信息收集方面,人们几乎无能为力。西北大学凯洛格管理学院营销学副教授 Jennifer Cutler(未参与这项新研究)说:“一个偏执的消费者可以完全停止在网上发布任何内容,停止使用互联网,不使用任何应用程序,放弃使用手机,不使用信用卡——但在这个时代,这样做确实不切实际。” “我们今天的生活在很大程度上是在线的,并且总是需要权衡取舍。政策制定者没有完全压制和限制任何数据共享是有原因的。这是因为数据共享和这些模型可以用于伟大的事业。”

Montjoye 建议数据经纪人需要开发新的匿名化技术并严格测试它们,以确保第三方无法根据个人统计数据识别个人身份,而不是完全禁止数据收集。“问题主要在于当前在匿名化方面的实践,”他说。“目前,我们只看到了冰山一角,但令人担忧的是,它没有实现防止重新识别的目标。标准需要更高,实践需要审查。”

由于个人几乎没有追索权,一些人认为,要让数据经纪人达到更高的标准,可能需要新的立法。这项研究的合著者、比利时天主教鲁汶大学的博士候选人 Luc Rocher 说:“由于数据是匿名的,数据收集者不必征求数据主体的同意,因此您不知道您的数据是否正在被收集并与第三方共享。” “我认为,在这里,更多的是关于法规更好地保护我们个人数据的责任问题。”

Cutler 同意,以研究为后盾的立法将是必要的。她说:“跨学科研究人员和政策制定者确实需要继续开展工作,就像本文中所做的那样,”以制定循证监管,“以便我们能够在创新和进步之间管理最健康的平衡,同时尽可能地保护用户。”

Sophie Bushwick大众科学 的科技编辑。她负责网站的日常技术新闻报道,撰写从人工智能到跳跃机器人等各种文章,用于数字和印刷出版物,录制 YouTube 和 TikTok 视频,并主持播客 Tech, Quickly。Bushwick 还经常出现在广播节目(如 Science Friday)和电视网络(包括 CBS、MSNBC 和国家地理)中。她在纽约市担任科学记者已有十多年的经验,并且曾在 Popular ScienceDiscover 和 Gizmodo 等媒体工作过。在 X(前身为 Twitter)上关注 Bushwick @sophiebushwick

更多作者:Sophie Bushwick
© . All rights reserved.