随着安全担忧的加剧、网络的激增以及越来越多的数据在线传输,个人隐私和匿名性往往是最先被牺牲的。在《洞察》故事“请保留一点隐私”中,该文章刊登于2007年8月期的《大众科学》,奇普·沃尔特与卡内基梅隆大学计算机科学家拉坦亚·斯威尼进行了对话,她讨论了隐私面临的新威胁以及打击身份盗窃和其他滥用信息行为的方法。
为什么隐私与安全之间的冲突会成为一个如此严重的问题?我们为什么要在乎?
(笑)嗯,一个问题是我们确实需要隐私。我指的不是政治问题。我们真的不能在没有隐私的社会中生存。即使在自然界中,动物也必须拥有某种程度的隐秘性才能运作。例如,想象一下,一只狮子看到一只鹿在湖边,它不能让鹿知道它在那里,否则 [鹿] 可能会先跑一步。而且它不想向其他狮子宣布 [它发现了什么],因为这会产生竞争。我们需要保密的原始需求,这样我们才能实现我们的目标。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
隐私还允许个人有机会成长和犯错,并在没有隐私的情况下无法实现的方式中真正发展,在这种情况下,没有宽恕,每个人都知道其他人在做什么。曾经有一段时间,你可以在东海岸犯错,然后去西海岸重新开始。这种理念在我们所做的很多事情中都有体现。例如,在破产中。这个想法是,你搞砸了,但你必须重新开始。但是,有了今天的技术,你基本上从出生到死亡都有记录,没有宽恕。因此,我们需要能够保护我们隐私的技术。
您是如何进入这一行的?是什么吸引您进入数学和计算机科学领域?
当我还是个孩子的时候 [大约三四年级],我最早的记忆之一就是想制造一个黑匣子,它可以像我一样快地学习。我们可以一起学习,或者它可以教我。我想要一种可以像我一样快且深入的教学学习体验。
是什么触发了你对黑匣子的幻想?
事后看来,我认为我在学校很无聊,因为我会完成作业,然后不得不等待班里的其他人。我认为这是一个出口,我开始花几个小时幻想这个盒子。它 [最终] 成为了真正的热情,所以当我上高中并修读我的第一门计算机课程时,童年的憧憬和对计算机编程的这种自然兴趣融合在一起了。
高中毕业后,你去了麻省理工学院。作为一所男性占主导地位的大学里为数不多的女生之一,你感觉如何?
我于 1977 年首次进入麻省理工学院。但这很艰难。我来自一所顶尖的女子预科学校,从那种环境到麻省理工学院,嗯,几乎不可能有更相反的情况了。它很大,在城市里,我睡不着,它 [太] 吵了。哎呀。
但真正让我感到困难的是教师;我与老师之间发生了很多令人反感的事件。
你在说什么样的令人反感的事件?
麻省理工学院的结构是,在你的大一,讲座在有 100 多名学生的大厅里举行,然后你进入只有 10 到 12 名学生的同一主题的小组。每周都有 10 道问题组成一个问题集。所以 [我们小组] 的男生来找我说:“你看,我们要成立一个学习小组”,我说:“什么是学习小组?”他们说,“嗯,每周我们都会有 10 道题,每周我们中的一个人会被分配一道题,在作业到期前一天,我们都会见面,你的工作是告诉小组的其他成员你的解决方案,然后他们不会抄下来,你向他们解释,他们自己写下来,或者如果我们认为这不是正确的解决方案,我们会讨论它。”我说:“哦,好的。听起来不错。”
基本上有 10 个人上交了相同的作业。所以每个人都收回了作业,他们得了 10 分(满分 10 分)、10 分(满分 10 分)、10 分(满分 10 分),而我得了 7 分(满分 10 分)。所以我去问老师,“你为什么给我 7 分(满分 10 分)?”他说,“嗯,你没有展示足够的过程。”所以 [我再次尝试],分数是 10 分(满分 10 分)、10 分(满分 10 分)、10 分(满分 10 分),而我得了 7 分(满分 10 分)。我再次问老师,“为什么我得了 7 分(满分 10 分)?”他说,“嗯,你展示了太多细节,看起来你并没有真正理解这些概念。”所以我经历了这件事,我试图得到恰当的细节量。
你有没有找出这 7 分(满分 10 分)背后的真正原因?
有一天,我们有了这些电阻立方体——这是一门工程课——它们上面有颜色,这些颜色表示罐子内部的电阻大小。我们必须记住这些颜色代码。所以在课堂上,老师说:“我还是麻省理工学院的年轻人时,我记住电阻 [颜色代码] 的方法如下:‘黑人男孩只强奸年轻女孩,但紫罗兰心甘情愿地给予。’”当他说这句话时,我想我明白了 [7 分(满分 10 分)背后的] 原因。
后来我离开了麻省理工学院,创办了自己的计算机公司,开了 10 年。然后我去了哈佛,然后从哈佛回到麻省理工学院攻读研究生。
回到同一个部门感觉如何?
当我回来时,那位老师是系主任。这真的很有趣,但你知道吗,当我回来时,我的态度是“我不会再接受任何垃圾”。我的研究生生涯绝对没有任何问题。但在我的本科时期,我绝对没有为我在那里必须面对的事情做好准备。
现在您是卡内基梅隆大学数据隐私实验室的负责人。您为什么创建它?
有一天我在研究生院 [在我的研究中],我看到这封信大致是这样写的:患者两岁时被性侵犯,三岁时用剪刀刺伤了她的妹妹,四岁时,她的父母离婚了,五岁时,她放火烧了她的家。然后我意识到,这个描述中没有任何内容 [会被通过] 删除可识别的信息而改变。我敢打赌,只有一个人有这样的经历。这让我意识到可识别性非常迷人,也让我意识到我对隐私一无所知。删除显式标识符不是重点。我意识到这里面有很多东西,而不仅仅是什么让我可识别的概念。
然后我开始意识到,数据空间中的隐私有点不同。它需要跟踪人们的去向。当所有这些技术开始爆炸式发展时,你开始意识到它太大了。
那么您的实验室与其他研究这些问题的实验室有什么不同?
我创建该实验室是为了做我所说的“在火中研究”。我们不像智库那样运作,也不处理抽象的问题。如果你有真实世界的危机,你可以来我们的实验室,给我们一点钱,我们就会解决你的问题。但由于这些都是真实世界的问题,所以它真的是在火中研究。我们没有闲暇时间坐下来推测和思考。法官现在需要一个决定和一个答案,否则某某人就要起诉了。因此,公司和政府机构会向我们提供研究资助,作为实验室的合作伙伴,他们会给我们需要在给定时间内解决的问题,而目标是解决这些问题。
你们处理哪些类型的问题?
各种各样的问题,从 DNA 隐私、视频盗版到收入流失、被起诉或提起诉讼的问题。[我们开发] 的许多技术都来自这类工作。
我们卷起袖子问:“我如何学习真正敏感的信息?我如何利用那些看起来很无辜的数据?”如果我们真的很擅长做到这一点,那么我们就可以制定控制隐私滥用的策略。
当一个问题出现时,无论是生物恐怖主义还是其他问题,我们都会发现自己深入研究该政策环境或监管环境、可用性问题,甚至商业问题。我们必须承担所有这些限制并提出解决方案,而这通常是一项新技术,有时只是一个补丁,很少只是一项建议。这就是我们所做的。
您的身份天使软件能够从互联网上可用的数据中收集有关人员的零散信息。它是如何工作的?
从公开可用或免费赠送或付费出售的信息中扫描个人非常容易。这意味着你不需要闯入系统来获取你不应该拥有的数据;这意味着你可以从已经存在的信息中收集信息。
[在我职业生涯的早期] 我了解到,如果我掌握了一个人的出生日期、性别和五位邮政编码,我可以识别美国 87% 的人。因此,即使你不给我你的社会安全号码,我也可以找到你是谁,几乎十次有九次。
这促成了身份天使的诞生?
我们在实验室怀疑的一件事是,20 出头拥有信用卡的人特别容易遭受身份盗窃。我们的实验室开始研究这个问题,我们发现这是人们生活中非常不稳定的时期。他们的地址在不断变化,因此,如果你要 [盗用身份] 并以他们的名义获得信用卡,地址已经改变这一事实并不会引起警惕。
还有什么会让 20 多岁的人特别容易遭受身份盗窃?
另一方面,这些人通常没有太多的信用记录,而信用卡公司却非常急切地想给他们发信用卡。与此同时,由于他们正处于习惯于在Facebook和MySpace上创建网页的年龄段,因此互联网上有很多关于他们的信息。许多信息也来自学生们习惯性地将个人信息放在简历中而泄露。为什么有人会在简历上写社会安全号码呢?但他们确实这么做了。
所有这些都简化了伪造学生信用卡的流程——姓名和地址,社会安全号码,以及出生日期。“身份天使”(Identity Angel)的挑战在于从互联网上找到并组合这些信息。它会挖掘互联网上的信息,包括简历,并寻找那些包含社会安全号码、出生日期等信息的文件——足够用来以他人名义申请信用卡的信息。
“身份天使”会如何处理这些挖掘到的信息呢?
如果成功,该软件会尝试找到受害者的电子邮件地址,并向他们发送电子邮件,告知他们我们找到了这些信息。
你们还开发了一个名为k-匿名性的程序。它的用途是什么例子?
我们与美国住房和城市发展部有一个合作项目。他们想了解人们去过哪里,但不想知道他们是谁。在这种情况下,他们永远都不想知道他们是谁。所以我构建了这个系统,让他们能够做到这一点。它实际上是在追踪无家可归者。2004年,国会拨款一大笔资金来创建无家可归者管理信息系统。该系统的目的是追踪无家可归者的服务利用情况,因为关于无家可归问题有很多疑问,他们希望有一个系统来收集这些信息。
国会说这和钱有关。无家可归的成本正在爆炸式增长。是因为无家可归者太多,还是因为他们吃太多食物,还是因为系统存在欺诈?究竟发生了什么?
为什么无家可归者需要隐私保护?
有一类特殊的无家可归者,他们的隐私变得至关重要,那就是家庭暴力受害者。事实证明,他们在系统中花费的金额占很大比例。他们害怕跟踪他们的人,所以他们希望能够追踪这些人,但要以一种即使你知道关于这个人的所有详细信息,即使你可以访问数据,你仍然无法识别这个人的方式进行。
这需要深入研究密码学。我早期开发的“清理系统”(例如“身份天使”)都是关于文本的。那只是文本挖掘。但这将我们带入了不同的领域——视频、人脸识别等,这需要深入研究计算机图形学和计算机视觉。
那么,我们如何解决隐私问题?最好和最坏的情况是什么?
我的答案是,我所看到的隐私问题可能最好由首先创造这项技术的人来解决。我们真正需要做的是培训工程师和计算机科学家,从一开始就以正确的方式设计和构建技术。
通常,工程师和计算机科学家会自己产生技术想法,进行某种循环思考,开发其解决方案的原型,然后进行某种测试。但我们说,我们会给他们工具,帮助他们了解利益相关者是谁,进行风险评估,然后看看会出现哪些障碍,处理风险最大的问题,并在技术设计中努力解决这些问题。
我认为,如果我们成功地培养出一批新的工程师和计算机科学家,社会将真正受益。整个技术辩证法旨在探讨如何教导工程师和计算机科学家思考用户接受度和社会采纳,[以及他们]必须从一开始就考虑技术的障碍。
因此,最好的情况是,这种培训能够普及,并且随着新技术的出现,它们不太可能不断与接受或拒绝的选择发生冲突。
打破这些文化障碍并改变人们的工作方式是否困难?
应该设立隐私技术部门,因为目前还没有[主动]处理隐私问题的技术。最好的解决方案在于技术设计。因此,我们的目标是为工程师和计算机科学家创建工具,为他们提供软件工具,帮助他们以他们已经习惯的方式工作,并为他们提供一种收集所有正确信息,然后将其融入到他们的设计中的方法。
很多时候,没有相应的财务模式来支持这样做。有时,社会对发生的事情感到非常恼火,最终会登上《纽约时报》的头版。反应并不总是理性的。政策没有技术的细微之处。
如果我们预先构建正确的设计,那么社会就可以决定如何打开和关闭这些控制。但是,如果技术在没有控制的情况下构建,就会迫使我们要么接受没有控制的技术带来的好处,要么通过稍后添加控制来削弱它。
几年前,太阳微系统公司的首席执行官斯科特·麦克尼利曾著名地调侃说:“隐私已死。接受它吧。”
哦,隐私绝对没有死。当人们说你必须做出选择时,这意味着他们实际上没有仔细考虑过这个问题,或者他们不愿意接受答案。
记住,说这话符合[麦克尼利]的利益,因为他非常赞同那些构建了侵入性技术的计算机科学家的态度;他们说,“好吧,你想要我的技术带来的好处,你会接受没有隐私的”。这正是我们未来不希望毕业的计算机科学家。我们希望计算机科学家能够在技术设计中解决这些类型的冲突,识别它们并解决它们。
那么,你认为最大的问题在哪里?
它实际上几乎无处不在。身份管理是一个我们一直忽视的关键问题。社会安全号码本身就是一个值得讨论的问题——它们是如何过时的,是否需要被取代?现在在执法部门和司法部门,他们说应该使用指纹。所以我们会在电脑、汽车甚至冰箱中看到带有非常昂贵的指纹读取器的小设备。但这是一个问题,因为指纹可能会成为下一个社会安全号码。它们可能会给我们带来社会安全号码的所有弊端,甚至更糟。我无法摆脱我的指纹,它会和我形影不离。我不会把社会安全号码戴在头上。
但是,它会被如何盗取呢?你认为指纹的具体问题是什么?
嗯,我们到处都会留下它们,这对执法部门来说真的很好,因为他们知道随时随地找到我们,但这同时也意味着任何人都可以拿到它们。关键是你可以看到其发展趋势。指纹数据库将遍地开花,这将带来问题。有人可以访问数据库并复制你的指纹,并制作一张卡,但那实际上不是他们的卡,而是你的。
因此,这使得越来越多关于我们的数据碎片,包括电子邮件,都散落在互联网上?
是的,你可以通过这种方式了解一个人很多信息,你甚至可以冒充他们。这是我预计未来五年会看到的另一件事。窃贼会稍微研究一下你,冒充你,也许会给一个你认识的人发电子邮件,索要资金,因为他们现在掌握了更多关于你的信息。
医疗隐私也是一个敏感领域。
那里的最大漏洞来自保险公司和雇主,他们是最终支付医疗费用的人。这些当事方有兴趣了解你被诊断出患有什么疾病,并做出影响你的就业或收入的决定。曾有一篇文章写到,马里兰州的一位银行家过去会把癌症登记处的数据与在他银行有贷款和抵押贷款的人的数据进行交叉比对,然后会要求收回那些贷款。现在这个故事被撤回了,因为人们正在争论它是否属实。但该故事的负责人向我展示了许多文件,表明这是真的。但我要说的是,无论真假,这肯定是很容易做到的。你可以看到经济上的诱因。因此,斯科特·麦克尼利的方法(即受信任的代理方法)的问题在于,如果他们是唯一能看到数据的人,也许社会可以信任他们。但事实是,你不是唯一可以[获得你的信息]的一方,而且你所倡导的不仅是为了你,而是为了很多你根本无法负责的当事方。
DNA数据现在越来越普及。如果你只有一个人的DNA,而没有其他信息,你能找出那个人是谁吗?
在一个项目中,我们选择研究患有亨廷顿舞蹈病的患者,因为它很容易在DNA中发现。DNA的一部分会重复,这是正常的,但如果你患有亨廷顿舞蹈病,它会重复很多次。而且,重复的次数越多,疾病的发病年龄就越早。因此,我们可以预测该人被诊断出患有该疾病时的年龄。这些都是伊利诺伊州的亨廷顿病患者。然后,我们使用了公开的医院出院信息,并查找了[出院的]亨廷顿病患者的诊断结果,并开始将它们与DNA进行匹配,以识别这些人。我们成功匹配了22人中的20人。这太令人震惊了。
我们是在推迟隐私问题,还是在直面它?
很多监控工作可以在保护隐私的前提下进行。但在现任政府领导下,国土安全部的人称之为“隐私”的“私”字。他们的说法是,只要你不提“私”字,你就没有“私”的问题,无论你是否真的存在隐私问题。所以,联邦调查局因收集所有这些额外数据而受到警告,但其中很多数据本可以匿名化处理。然而目前,根本没有资金或兴趣使用这些技术。