2015年1月29日

购物习惯在“匿名”数据中泄露个人信息

关于您使用信用卡的时间和地点的信息，可能帮助数据窃贼揭露您的身份，即使他们不知道您的姓名、地址和其他个人信息。

本文发表在《大众科学》的前博客网络中，反映了作者的观点，不一定代表《大众科学》的观点

关于您使用信用卡的时间和地点的信息，可能帮助数据窃贼揭露您的身份，即使他们不知道您的姓名、地址和其他个人信息。这是最新研究的结果，该研究旨在揭示匿名数据记录是保护隐私的有效方法这一观点中的漏洞。

企业、医疗机构和政府机构经常声称，对他们存储的数据进行消毒处理，可以在信息丢失或被盗的情况下维护客户、患者或选民的机密性。他们使用一种有时被称为“去身份化”的方法，清除可能揭示个人身份的数据字段，例如 IP 地址、用户名和社保号码。他们通过多种方式做到这一点，包括加密和在共享记录时排除某些数据。

通常，存储敏感个人数据的人依赖匿名化作为一种避免在数据库泄漏或遭到破坏时通知公众的法律义务的方法。然而，本周发表在《科学》杂志上的一项研究——该杂志“数据驱动世界中的隐私”特刊的一部分——声称，麻省理工学院 (M.I.T.)、奥胡斯大学（丹麦）和罗格斯大学的研究人员能够在一个匿名的信用卡记录数据库中“重新识别”个人。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保关于当今塑造我们世界的发现和想法的具有影响力的故事的未来。

研究人员分析了三个月的“简单匿名化”信用卡记录——没有姓名、帐号或其他明显的标识符——来自一个身份不明的国家/地区的 10,000 家商店的 110 万人购物数据。这些信息由该国的一家银行提供。他们分析的数据集中包括购买发生的商店名称和位置、购买发生的日期以及购买金额。

研究人员利用信用卡和交易信息，识别了数据集中 90% 的个人。当他们在其中加入交易的确切价格时，他们重新识别匿名记录的能力提高了 22%。研究人员发现，即使他们只知道购物者的大概位置或购物时间范围，他们也可以识别出这些人。

该研究最重要的结论之一是，“我们必须更加努力地思考和改革我们处理数据保护的方式，并超越匿名化，鉴于我们所有人以数字方式留下的信息足迹，这很难实现，”麻省理工学院媒体实验室计算隐私方向的高级博士生伊夫-亚历山大·德·蒙特乔伊说，“即使您有很多关于某人的数据，您也希望对某人的身份存在不确定性。”

根据这项研究，女性比男性更容易被重新识别，收入高的人也比收入低的人更容易被识别。德·蒙特乔伊和他的同事，包括媒体实验室主任和数据科学家亚历克斯·“桑迪”·彭特兰，没有深入研究造成这种差异的原因。然而，德·蒙特乔伊指出，这可能表明，根据不同人的购买行为，例如他们访问的商店数量和在那里花费的时间，可能更容易识别出他们。

比这项研究的结果更令人不安的是，美国有如此多的法律鼓励将匿名化作为一种隐私保护手段。《1996 年健康保险流通与责任法案》（HIPAA）例如，将 18 个不同的数据类别视为受保护的健康信息——包括姓名、社会安全号码和出生日期——必须进行“去身份化”。然而，HIPAA 并未对患者就诊信息（例如就诊年份、患者年龄或诊断）提出相同的要求——这种疏忽削弱了患者的匿名性，科罗拉多大学法学院副教授兼学术事务副院长保罗·奥姆在 2009 年为《加州大学洛杉矶分校法律评论》撰写的一篇文章中指出。

随着美国国会针对奥巴马总统呼吁制定联邦数据泄露通知立法，制定《个人数据通知和保护法》，匿名化的缺陷现在尤其值得关注。该法律将创建一个国家标准，以取代目前使用不同标准来确定企业何时必须公开报告丢失或被盗的客户数据的 47 项不同的州法律。