数据融合:无所不包的数字档案的利与弊

将每个人的个人数据,从信用卡账单到手机通话记录,都整合到一个无所不包的数字档案中,这简直是奥威尔式噩梦的素材。但这并不像大多数人认为的那么容易

几年前,我在去机场的路上在星巴克买了一杯拿铁,停好车,然后登上飞往英国的航班。八小时后,我在希思罗机场下飞机,买了一张手机预付卡,然后去买火车票进伦敦。这时,我的信用卡突然罢工,再也无法使用。直到我回到美国,才弄清楚发生了什么事。显然,在星巴克的小额消费,随后在海外购买手机卡,触发了我信用卡公司电脑中的某种反欺诈数据挖掘算法。它试图给我打电话,但只能留言,然后就将我的信用卡列入了黑名单。

让我对整个经历感到恼火的是,电脑本应知道在英国使用我的卡的人是我自己。毕竟,我用同一张卡买了机票,并且乘坐的是一家主要的美国航空公司。难道所有这些数据库不应该是互相连接的吗?

大多数人可能都认为它们是连接的。我们已经从好莱坞电影中,例如《全民公敌》和《谍影重重》三部曲中,期望那些神秘组织能够即时访问我们依赖的所有数据库,并且只需敲击几下键盘,就可以监视我们的一举一动。从多个来源收集信息并将其合并的过程,被称为数据融合,据说可以创建一个比任何原始来源都更强大、更灵活、更准确的信息资源。数据融合的支持者说,他们的系统可以让组织更好地利用他们已经拥有的数据;批评者说,融合威胁了公民自由,因为它以最初收集信息时从未设想过的方式使用信息。双方都认为数据融合系统实际上是有效的。但现实情况是,这些系统远没有人们想象的那么无所不知、那么可靠或那么完善。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的有影响力的故事的未来。


合众为一
数据融合技术可以追溯到 20 世纪 70 年代的计算机匹配程序。当国会在 1974 年通过《隐私法》时,它也授权创建了联邦父母定位服务,该服务现在运营着一个巨大的黑名单,拒绝向拖欠子女抚养费的非监护父母提供包括护照在内的各种联邦福利。这些数据与全国新雇员名录融合,以查找最近受雇但未按时支付抚养费的父母,以便可以扣押他们的工资。

“数据融合”一词于 1984 年进入技术术语,当时洛克希德·马丁公司先进技术中心的研究人员发表了两篇关于“战术数据融合”系统的文章,该系统将实时融合来自传感器、数据库和其他来源的战场信息,供人类分析师使用。从那时起,这个想法蓬勃发展。生物信息学研究人员谈论基因组数据融合。国土安全部已花费超过 2.5 亿美元建立约 58 个州或地方融合中心。消费者营销公司尼尔森开发了数据融合产品,用于识别和定位具有特定特征的潜在客户,而不是浪费精力进行传统的散弹枪式营销。

但是,尽管数据融合有很多用途,但其在识别潜在恐怖分子方面的应用引发了最大的公众辩论。“发现恐怖分子的关键是根据对当前阴谋和过去恐怖袭击的观察,寻找表明恐怖分子阴谋的活动模式,”国防高级研究计划局 (DARPA) 的约翰·波因德克斯特海军少将和罗伯特·L·波普在 2006 年写道。他们认为,如果政府能够扫描商业数据库中非农民大量购买化肥的记录,1993 年的世界贸易中心爆炸案和 1995 年的俄克拉荷马城爆炸案可能就可以避免。但是,获取这些购买记录并将其与农场所有权和就业记录数据库相结合,将需要政府前所未有地访问私人计算机系统。该国每一笔交易——以及每个人——都将在没有可能原因的情况下受到监控。由于这些原因,以及其他原因,国会在 2003 年扼杀了波因德克斯特和波普的研究项目“全面信息意识”项目。

不要折叠、穿孔或混淆
政府的保密墙无助于平息公民自由主义者的担忧。各机构对其可能已经部署或可能尚未部署的用于保护国家安全的数据融合系统几乎没有透露任何信息:他们辩称,如果坏人知道融合程序是如何工作的,他们将更容易逃避这些程序。但是,公开可用的信息足以表明,数据融合不仅会引发道德和法律问题,还会引发技术问题。

数据质量是其中之一。数据库中的许多信息最初是出于纯粹的统计目的而收集的,可能不够准确,无法做出可能产生惩罚性结果的自动判断。1994 年,堪培拉澳大利亚国立大学的罗杰·克拉克研究了美国和澳大利亚联邦和州政府维护的计算机匹配程序。这些系统扫描了数百万条记录,并标记了数千个潜在的“命中”。但大多数结果都是误报。例如,一个用于查找福利欺诈者的程序将卫生与公众服务部的就业记录与华盛顿特区周边县的福利名册进行了匹配。它产生了大约 1,000 次命中,但进一步调查表明,四分之三的被识别人员是无辜的。这些收益不足以证明收集数据、培训人员和追查误报的成本是合理的。

许多人认为,如果一个数据融合程序能够预测和阻止一次重大的恐怖袭击,那么无论花费多少都是值得的。职业海军军官波因德克斯特将技术问题比作在浩瀚的海洋中寻找敌方潜艇。但是,在数据海洋中寻找恐怖主义准备活动的特征比在水海洋中寻找潜艇要困难得多。世界海洋可能浩瀚无垠,但每个地点都可以通过经度、纬度和深度来唯一识别。数据海洋不像海洋那样容易分类。此外,世界海洋的面积并没有像数据海洋那样每隔几年就翻一番。信息空间的很大一部分是未知的;数据分散在数百万个独立的计算机系统中,其中许多系统对当局来说是隐藏的或未知的。

融合之所以困难,是因为我们被来自多个来源的数据淹没,所有这些来源都具有不同的详细程度和不确定性。数据融合的真正挑战不是获取数据,而是理解数据。

您的硬盘驱动器上有什么?
理解数据融合问题的一个好方法是从您计算机硬盘驱动器上的信息开始。在 1998 年至 2005 年期间,我正是这样做的:我在 eBay、小型电脑商店和跳蚤市场购买了 1,000 多个二手硬盘驱动器;我甚至从遗弃在街角的电脑中搜寻了一些。2003 年 1 月,现在弗吉尼亚大学担任计算机科学家的阿比·谢拉特和我发表了一篇论文,详细介绍了我们的发现。

大约三分之一的驱动器不再能用,另外三分之一在丢弃之前已正确擦除。但剩下的三分之一是个人信息的宝库:电子邮件、备忘录、财务记录。一个驱动器以前是自动取款机的一部分,记录了数千个信用卡号码。另一个驱动器曾被一家超市用来向其银行提交信用卡付款。这两个驱动器在公开市场上转售之前都没有被正确擦除。

使我能够搜索驱动器的工具是广泛可用的,而且并非特别复杂。世界各地的警察部门使用相同类型的工具从计算机和手机中恢复文件。有时用户没有意识到他们留下的数字面包屑。以所谓的 BTK 杀手为例,他在 20 世纪 70 年代和 80 年代在堪萨斯州威奇托犯下了八起谋杀案,然后转入地下。该杀手于 2004 年 3 月再次出现,给《威奇托鹰报》寄了一封信,详细描述了他早期的罪行,并给当地电视台寄了一张软盘,上面有一个 Microsoft Word 文档。该文件包含“元数据”,将其链接到当地教堂的一台电脑。警方发现,使用该电脑的人是教会理事会主席——也是凶手。

文件哈希值
但是,弄清楚哪些文档是重要的,哪些是毫无价值的,是很困难的,并且需要将外部知识与硬盘驱动器上的信息融合在一起。例如,当我在 20 世纪 90 年代开始分析硬盘驱动器时,其中许多都包含《岛屿跳跃者新闻》的副本。这似乎非常可疑。后来我了解到,这份电子报纸实际上是微软随 Visual Studio 6.0 产品分发的演示文件。如果我不知道这一点,我可能会对驱动器的前任所有者得出错误的结论。

筛选出无害文件的唯一方法是抽样数字文档世界,并建立一个广泛可用的文档列表。一种快速、自动化的方法是创建所谓的哈希集。加密哈希算法可以为任何数字文件分配唯一的电子指纹。最流行的两种是 MD5(创建 128 位指纹)和 SHA-1(生成 160 位指纹)。然后,取证工具无需逐字节比较两个文件,而是可以检查指纹。

在美国国家标准与技术研究院 (NIST) 国家软件参考图书馆司法部拨款的支持下,该图书馆从数百家出版商处获取软件,并将每个文件简化为加密哈希值。然后,NIST 分发该数据库(现在有超过 4600 万个条目),以便为法医调查人员提供一种快速可靠的方法来清除软件出版商分发的文件(例如《岛屿跳跃者新闻》),因此可以安全地忽略这些文件。其他联邦机构提供的数据库包括计算机黑客工具和儿童色情制品的电子指纹。

但是,尽管哈希数据库很有用,但它们仅代表所有文档中的一小部分样本。为了扩充它们,我开发了一种称为跨驱动器分析的技术。它可以自动将分散在数千个硬盘驱动器、USB 存储棒和其他数据源中的信息拼接在一起。该技术突出显示并隔离电子邮件地址和信用卡号码等标识符,并根据它们出现的频率对其进行加权:据推测,标识符越常见,它就越不重要。最后,该技术将所有单个设备上的标识符关联起来:如果电子邮件地址或信用卡号码仅在数千个磁盘驱动器中的两个磁盘驱动器上出现,则这两个驱动器很有可能相关。

谁是谁?
数据融合者的另一个问题是身份。在电子世界中,可能有数十人同名同姓,也可能有数十个名字被同一个人使用。一些数据库可能会将波因德克斯特列为约翰·马兰·波因德克斯特或 J·M·波因德克斯特,甚至可能会拼错这位海军少将的姓氏波因克斯特。一个人的名字在一个数据库中可能被列为罗伯特,在另一个数据库中被列为罗布,在第三个数据库中被列为鲍勃。一个在西非的阿拉伯名字音译为 Haj Imhemed Otmane Abderaqib 的人,在伊拉克可能被称为 Hajj Mohamed Uthman Abd Al Ragib。

将电子世界中各种名称和帐号与物理实体匹配起来称为身份解析。没有它,数据融合是不可能的。奇怪的是,身份解析系统的许多创新都是由拉斯维加斯的赌场推动的。根据内华达州法律,赌场必须禁止自我声明的问题赌徒玩游戏。这些赌徒自愿将自己的名字列在一个名单上,实际上是说“不要再让我赌博了!”但赌博可能是一种疾病,名单上的一些人仍然试图通过更改姓名或在出生日期中交换几个数字来偷偷溜进去。赌场也决心将有嫌疑或被判有罪的作弊者排除在外。如果一位客人在二十一点牌桌上赢了大量资金,赌场希望确保庄家和玩家不是室友。

因此,赌场资助开发了一种称为非显性关系分析 (NORA) 的技术,该技术将身份解析与信用公司、公共记录和酒店住宿数据库相结合。例如,一个 NORA 系统可能会发现,二十一点庄家的妻子曾经与刚刚赢了 10 万美元的玩家住在同一栋公寓楼里。在 20 世纪 90 年代,软件工程师杰夫·乔纳斯开发了一个系统,该系统可以以一种容忍错误、歧义和不确定性的方式,将赌场计算机中的姓名与其他信息来源匹配起来。该系统的工作原理是基于数据构建假设,然后在新信息可用时修改这些假设。

例如,它可能会收到 Marc R. Smith 的驾照记录、Randal Smith 的信用报告以及 Marc Randy Smith 的信用申请。它可能会猜测这些名字属于同一个人——特别是如果 Marc R. Smith 和 Marc Randy Smith 具有相同的驾照号码,并且如果 Randal Smith 和 Marc Randy Smith 共享一个电话号码。但是,假设新数据显示,Randy Smith, Sr. 与 Randal Smith 的出生日期相同,但他的社会安全号码与 Marc R. Smith 的社会安全号码不同。现在,系统可能会修改其猜测,决定 Marc R. Smith 是 Randal Smith, Jr.,而 Randy Smith 是 Randal Smith, Sr.。使这一切工作的关键是编程系统,使其永远不会将原始数据与从这些数据推断出的结论混淆。

乔纳斯在 2005 年将该系统及其公司出售给了 IBM。从那时起,IBM 增加了一项名为匿名解析的功能:两个组织可以确定他们是否在各自的数据库中共享一个人的姓名——而无需共享所有不匹配的人的姓名。该技术通过比较加密哈希值而不是真实姓名来工作。

隐私倡导者仍然坚持认为,哈希值、跨驱动器分析、匿名解析等对于克服他们的根本异议几乎没有作用。毕竟,这些系统仍然将个人信息用于最初获取信息时目的以外的目的。它们还使得不加区分地搜集私人数据成为例行公事,而不管所涉人员是否涉嫌犯罪。然而,这些系统产生的误报明显少于 20 世纪 80 年代开发的系统。在某个时候,社会效益可能会超过计算机窥探人们记录的隐私成本。

整合一切
那么,融合系统实际上效果如何呢?数据质量仍然是一个严重的问题。例如,从美国三大信用报告机构中的每一家获取您的信用报告,每份报告都可能包含错误和不一致之处。这些数据可能会沉寂多年,而不会造成太大麻烦。当某些新奇的算法过度解读这些不一致之处时,危险就产生了。

即使数据是准确的,通过比较数据库揭示的关系也可能具有实际意义,或者可能是纯粹的巧合,就像在一个房间里找到两个生日相同的人一样不可避免。每周聚会一次进行长途驾驶的四个人可能正在策划犯罪。但另一方面,他们可能属于一个垒球队,并且每周一起旅行参加大型比赛。

社会对数据融合的期望可能过高。如果恐怖分子融入人群,人类调查员和计算机都将很难找到他们。大多数数据挖掘和融合系统都具有某种灵敏度调整功能:向左移动滑块,系统将无法找到真正的匹配项;向右移动滑块,系统会做出太多最终被证明是错误的预测。滑块应该设置在哪里?如果一个系统标记出每三个航空旅客中的一个,它将更有可能发现真正的恐怖分子。但它也会使空中交通陷入停顿,并使执法部门不堪重负。

如果数据融合系统无法按预期工作,则其算法可能存在根本性缺陷。但问题也可能在于数据匮乏。同样,如果系统运行良好,给它更多数据可能会使其性能更好。换句话说,无论系统运行状况如何,构建和使用这些系统的人们自然而然地倾向于想要更多更多的输入数据。因此,数据融合项目具有内置的使命蔓延趋势——这不仅令公民自由倡导者感到沮丧,也令那些支付账单的人感到沮丧。克拉克在他的 1994 年的文章中得出结论,“国家对社会控制的兴趣与公民个人免受不合理干预的自由之间的权衡[正在]持续地朝着有利于国家的方向解决。”

作为一名科学家,公众对数据融合的争论让我感到沮丧的原因是,关于实际使用的数据融合系统,公开的信息太少了。这让人回想起 20 世纪 90 年代的密码学辩论,当时美国政府辩称,在法律上限制密码学的使用是有充分理由的,但这些理由非常敏感,以至于在公开场合讨论它们将对国家安全构成威胁。我怀疑一场类似的辩论正在酝酿,内容涉及政府对数据融合的使用,更不用说这项强大技术在商业甚至政治活动中的应用了。这是一场值得进行的辩论——而且应该公开进行。

注:本文最初印刷时的标题为“世界信息联合起来”。

© . All rights reserved.