拉坦娅·斯威尼吸引了很多关注。这可能是因为她对深奥而精巧的数学有着深厚的感情。或者可能是因为她穿着黑色皮衣,骑着她的本田VTX 1300摩托车在卡内基梅隆大学宁静的校园里穿梭,她在那里领导着国际数据隐私实验室。无论如何,斯威尼怀疑这种关注有助于解释她为什么如此着迷于保护人们的隐私。因为她工作的核心是一个令人烦恼的问题:在当今以安全为中心、以数据库为基础的世界中,身份信息唾手可得,是否有可能维护隐私、自由和安全?
几年前,太阳微系统公司董事长斯科特·麦克尼利曾著名地讽刺道:“隐私已死。接受现实吧。”斯威尼对此不敢苟同。“隐私绝对没有死,”她反驳道;那些认为隐私已死的人“实际上并没有彻底思考过这个问题,或者他们不愿意接受解决方案。”
当然,隐私正受到围攻,她说,这很糟糕。关于《爱国者法案》和联邦层面的数据挖掘的辩论愈演愈烈,各州也出台了各种各样的被动式法律,这些法律在确保隐私和提高安全性之间摇摆不定。尽管身份盗窃在2002年开始缓慢下降,但最近一项研究显示,2006年仍有840万美国成年人遭受某种形式的身份欺诈。“随着技术的爆炸式发展,问题也随之增长,”斯威尼说,而且每个问题都需要不同的解决方案,这实际上是在说,不可能预测新的侵犯隐私的形式将在哪里出现。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业: 订阅。通过购买订阅,您将帮助确保未来继续刊登关于塑造我们当今世界的发现和想法的具有影响力的报道。
所有这些都让斯威尼和她的团队在过去六年里一直忙于解决当今最棘手的保密问题——身份盗窃、医疗隐私以及摄像头监控的迅速扩张等等。其他学术实验室倾向于在理论层面解决问题;47岁的斯威尼表示,她的团队就像一个数字侦探机构,配备了一支由程序员组成的专业队伍,他们正在设计一些非常巧妙的软件。研究人员的方法是对系统进行技术分析,然后提出巧妙而务实的解决方案。
例如,斯威尼的“身份天使”程序在互联网上搜索,并通过将一个数据库中的姓名与分散在其他数据库中的地址、年龄和社会安全号码联系起来,快速收集数千个身份信息。这四项信息是任何人盗取身份并开设信用卡账户所需的全部信息。实验室会定期提醒弱势群体,以便他们解决问题。
另一个程序“匿名化”身份。它最初是为国防部在9/11袭击后开发的,旨在帮助定位潜在的恐怖分子,同时仍然保护无辜公民的隐私。该程序阻止监控摄像头泄露身份,除非当局表明他们需要这些图像来起诉犯罪。与其他软件不同,该程序不会将个人特征像素化或涂黑,而是实际上从数据库中的其他面孔中伪造一个新的面部图像,使人类或机器都无法识别。
斯威尼实验室核心的巧妙算法可以追溯到她在纳什维尔长大的日子,那时她会梦想着如何创建一个可以与之交谈的人工智能黑匣子。“我花了几个小时幻想那个盒子,”她回忆道。十年后,她将自己在数学方面的天赋和早期对人工智能的痴迷转化为奖学金,这帮助她支付了前往麻省理工学院的学费,麻省理工学院是这两个领域的堡垒。这里似乎是实现她小学时创造智能机器梦想的完美场所。问题是,斯威尼刚刚离开新英格兰一所严谨的女子高中的礼貌世界,突然沉浸在麻省理工学院以男性为主导的极客文化中,这种转变让她措手不及。再加上她与一位种族歧视教授的经历,这位教授似乎永远无法让她满意,这导致斯威尼辍学并创办了自己的软件咨询公司。
在商界工作十年后,斯威尼重返大学,并在哈佛大学完成了本科学位。然后,她在麻省理工学院获得了计算机科学硕士和博士学位,成为第一位获得该学位的非裔美国女性。“当我回来时,我告诉他们我不打算再受任何委屈了,”她笑着说。
正是在她重返麻省理工学院后,斯威尼首次涉足隐私和安全领域。她获得了国家医学图书馆的奖学金,为了表示感谢,她自愿帮助波士顿的几家医院改进对其医疗记录的保护,这是20世纪90年代中期互联网蓬勃发展时出现的一个问题。斯威尼编写了一个名为Scrub System的程序,该程序利用她在人工智能方面的专业知识,巧妙地搜索患者记录、治疗 notes 和医生之间的信件。标准的搜索和替换软件通常只能找到30%到60%的个人身份信息。Scrub System“理解”什么是姓名、地址或电话号码,并消除99%到100%的泄露数据。
该软件赢得了医学协会的赞誉。“她的研究非常有影响力,”国家医学图书馆副馆长贝齐·汉弗莱斯说。“很多人没有看到[互联网时代]的生活有多么不同……拉坦娅的工作提高了他们的意识。”斯威尼羞涩地说,有了Scrub System,“我以为我已经解决了隐私问题。”但事实是,“我真的不了解隐私。”
有一天,当她回顾一位年轻女性的病史时,她才意识到这一点。“这个女孩两岁时遭到性侵犯,三岁时用剪刀刺伤了她的姐姐,四岁时她的父母离婚了,五岁时她放火烧了她的家,”斯威尼回忆道。显然,“删除显式标识符并不是[隐私]的全部意义所在。”它指的是我们在散落在互联网各处的记录中留下的信息碎片——在医疗表格、信用卡申请、简历和其他文档中。报告中没有任何内容明确指出这个女孩的身份,但这些信息碎片是独一无二的,斯威尼非常确定她可以利用它们重新识别她——以及几乎任何人。
诸如“身份天使”之类的程序已经证明了斯威尼的正确性,她花费了大量时间寻找侵犯隐私的方法,有时先于坏人,有时则不然。她讲述了一个在马里兰州被起诉的银行家的故事,他将公开的医院出院记录中的信息与他自己的客户名单进行交叉引用,以查看他的客户中是否有人患有癌症。如果他们患有癌症,他就会催收他们的贷款。在一个使用伊利诺伊州数据的项目中,斯威尼的实验室找到了一种方法,即使在患者的所有信息都从记录中删除后,也能重新识别亨廷顿病患者。亨廷顿病是由一段短DNA序列的重复引起的。该序列重复次数越多,发病年龄越早。斯威尼的实验室将这些数据与包含患者年龄的医院出院记录相结合,准确地将90%的亨廷顿病患者与存档的DNA记录联系起来。斯威尼承认,滥用可能很少见,但这两个案例都表明,如果一个数据库被用来利用另一个数据库中的信息,情况可能会变得多么糟糕。
斯威尼说,真正的解决方案不在她的实验室或任何其他实验室。最终,工程师和计算机科学家将不得不在新技术的的设计和可用性中预先融入隐私保护。如果他们这样做,“社会[然后]就可以决定如何打开和关闭这些控制,”斯威尼评论道。否则,我们可能都需要骑摩托车才能获得片刻隐私。