编者注(2015年11月16日):在11月13日巴黎恐怖袭击事件以及随后关于反恐努力和加密通信的辩论之后,《大众科学》重新发表以下文章。
2012年11月,一名28岁女子从纽约市一间卧室的窗户坠落15米至人行道,这次灾难性的坠落使她身体破碎但仍活着。这次意外既是绝望之举,也是希望之举——这名女子从六楼的窗户爬出来,是为了逃离一群性侵犯她并囚禁她两天之久的男子。
四个月前,纽约县地方检察官办公室将应对这名女子苦难负责的男子之一本杰明·加斯顿送入监狱,判处50年至终身监禁。根据纽约县地方检察官办公室的说法,检察官手中的关键武器是一套实验性的互联网搜索工具,美国国防部正在开发这套工具,以帮助抓捕和监禁人口贩卖者。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
尽管国防部和检察官办公室尚未公开承认使用这些新工具,但他们向《大众科学》证实,国防高级研究计划局(DARPA)的Memex计划提供了先进的互联网搜索能力,帮助确保了定罪。DARPA正在创建Memex,以便在互联网上搜索有关人口贩卖的信息,特别是用于引诱受害者进入奴役状态并促进对其性剥削的广告。
这些信息中的大部分是公开可用的,但它存在于占所谓“深网” 90%的部分中,而Google、Yahoo和其他流行的搜索引擎并未对其进行索引。这使得大量信息未被触及,这些信息对普通网络冲浪者可能没有价值,但可以为调查人员提供关键信息。Google不愿证实其索引的互联网内容不超过10%,这是一个已被广泛报道的统计数据,但一位发言人指出,该公司的重点是其搜索结果是否相关且有助于回答用户的查询,而不是它是否已索引互联网上100%的数据。
深网信息中的大部分是非结构化数据,这些数据是从传感器和其他设备收集的,这些设备可能并不位于可以被搜索引擎扫描或“抓取”的数据库中。其他深网数据来自临时页面(例如,非法性服务和类似非法服务的广告),这些页面在搜索引擎可以抓取之前就被删除了。深网的某些区域只能使用特殊软件访问,例如Tor Onion Router,它允许人们通过点对点连接而不是通过中央计算机服务器匿名秘密地共享信息。DARPA正在与来自公司和大学的17个不同的研究团队合作,作为Memex计划的一部分,开发互联网搜索工具,这些工具为政府、军队和企业提供了分析、组织和与从这个更大的来源池中提取的数据进行交互的新方法。
法律与秩序
DARPA对Memex及其执法部门和检察官使用它来调查犯罪嫌疑人一事鲜有提及。
根据已发表的报告,包括卡内基梅隆大学的一份报告,纽约县地方检察官办公室是过去一年中使用早期版本的Memex软件来查找和起诉人口贩卖者的几个执法机构之一,人口贩卖者胁迫或绑架人口——通常是妇女和儿童——以达到剥削目的,包括性剥削或其他剥削。“Memex”——“记忆”和“索引”两个词的组合,最初在1945年《大西洋月刊》的一篇文章中提出——目前包括八个开源的、基于浏览器的搜索、分析和数据可视化程序,以及执行复杂计算和数据分析的后端服务器软件。
这种能力可能成为打击人口贩卖的关键组成部分,人口贩卖是一种定罪率低的犯罪,主要是因为贩卖者使用策略来掩盖受害者的身份(pdf)。联合国毒品和犯罪问题办公室估计,在任何给定时间,全球约有250万人口贩卖受害者,但将迫使他们从事服务的罪犯绳之以法却很困难。在其2014年关于人口贩卖的研究报告(pdf)中,联合国机构发现,在2010年至2012年期间,接受调查的40%的国家每年报告的定罪少于10例。报告涵盖的128个国家中,约有15%的国家没有记录任何定罪。
在线兜售此类服务的罪犯的证据很难确定,因为深网中使用了临时广告和点对点连接。根据DARPA资助的研究,在两年时间内,贩卖者花费了约2.5亿美元发布了超过6000万个广告。如此庞大的网页数量,其中许多网页发布时间不够长,无法被搜索引擎抓取,这使得调查人员很难将各个点连接起来。部分原因是,调查人员通常使用大多数人用来查找餐厅评论和礼品创意的相同搜索引擎来搜索人口贩卖的证据。因此才有了Memex项目。
Memex内部
在DARPA位于弗吉尼亚州阿灵顿的总部,Memex项目经理克里斯托弗·怀特向《大众科学》展示了他和他的同事正在开发的一些工具的演示。刑事调查通常从极少的信息开始,例如电子邮件地址。怀特将一个演示地址插入Google,以展示调查人员目前的工作方式。正如预期的那样,他收到了来自Google抓取的互联网部分(也称为“表层网络”)的链接页面,这些链接按Google算法优先排序,试图在顶部提供最相关的信息。在点击其中几个链接后,调查人员可能会找到与电子邮件地址关联的电话号码。
到目前为止,怀特从互联网上提取的信息与大多数人看到的信息相同。但他随后面临所有网络用户都会遇到的下一步:筛选大量超链接页面,但几乎没有可用的分析信息来将不同的搜索结果联系起来。与Memex从更广泛的互联网领域提取信息的能力同样重要的是,它的工具可以识别不同数据片段之间的关系。这有助于调查人员创建数据地图,用于检测空间和时间模式。一个例子可以是中心辐射型可视化,描绘了连接到单个性服务电子邮件、电话号码或工作者的数百个网站。
怀特还展示了MEMEX如何生成不同国家的彩色编码热图,这些热图可以定位在任何给定时间在线发布性广告最多的地点。怀特说,这些模式和其他模式可能有助于揭示调查人员可能错过的关联,怀特在2010年开始与DARPA合作,担任顾问,开发数据科学工具以支持美军在阿富汗的行动。
搜索结果
自从DARPA大约一年前开始向选定的执法机构引入Memex以来,该技术已经取得了成果。纽约县地方检察官办公室表示,其新的人口贩卖应对小组现在在其处理的每起人口贩卖案件中都使用DARPA的Memex搜索工具。根据纽约县地方检察官办公室的说法,Memex在至少20起活跃的性贩卖调查中发挥了作用,并且除了加斯顿的定罪外,还应用于八项未决起诉。“Memex帮助我们建立基于证据的起诉,这对于打击人口贩卖至关重要,”曼哈顿地区检察官小赛勒斯·R·万斯说。“在这些复杂的案件中,检察官不能仅仅依靠受创伤的受害者作证。我们需要证据来证实,或者在某些情况下,取代受害者作证的需要。”
Memex的不同组成部分也在帮助全国其他地区的执法部门打击贩卖活动。加利福尼亚州莫德斯托的一名侦探使用一款名为Traffic Jam的特定软件,跟进有关内布拉斯加州一名特定受害者的线索,最终确定了一名性贩卖者,该贩卖者与妓女一起在整个中西部和西部地区旅行。调查最终导致他被捕。Traffic Jam由卡内基梅隆大学研究人员于2011年独立于DARPA开发,后来分拆成一家名为Marinus Analytics的公司,使调查人员能够通过快速审查贩卖者在多个地点发布的广告来收集证据。
DARPA此后授予卡内基梅隆大学一份为期三年,价值360万美元的合同,以增强Traffic Jam作为Memex一部分的基本搜索能力,并使用机器学习算法来深入分析结果,据该大学称。卡内基梅隆大学的研究人员还在研究如何将计算机视觉应用于搜索,以帮助调查人员识别具有相似元素的图像——例如来自同一家酒店房间的家具,这些家具出现在多张图像中——即使图像本身不完全相同,杰夫·施耐德说。施耐德是该项目的首席研究员,也是大学计算机科学学院Auton Lab的研究教授,该实验室研究统计数据挖掘。例如,酒店房间里的家具可以帮助执法部门确定贩卖活动的地点。
万斯和其他执法官员欢迎此类进展。“技术本身不能解决案件,但它肯定有帮助,”他说。“当我们把传统的现场情报与这个工具提供的信息结合起来时,我们取得了最大的成功。”
怀特同意DARPA的技术是对其他调查方法的补充,包括对受害者的访谈。除了针对人口贩卖外,执法官员还发现他们可以利用Memex来打击其他相关犯罪,包括枪支和毒品贩运。
“比大多数人想象的更大”
除了改变执法方式的能力外,Memex标志着互联网搜索技术本身的一次重大转变,有一天它可能会帮助我们所有人获得更实用的搜索结果。怀特说,大多数人将互联网搜索视为超链接结果列表,并且40%的时间会点击第一个链接。但是,他补充说,“互联网比大多数人想象的更大。”
搜索引擎忽略了他们在深网中发现的大部分非结构化数据、未链接内容(没有链接到其他页面的网页)和临时页面,认为它们对搜索引擎广告商试图接触的受众来说是不可用的。临时页面的一种类型可能是人口贩卖者在互联网上为他们的客户熟知的位置设置的性服务广告,但在它可以被索引并被执法部门发现之前就被撤下了。其他临时页面则较为无害——例如,那些由根据查询而变化的数据查询结果组成的页面。
常规搜索引擎忽略这些表面下数据的一个原因是网络广告商对它不感兴趣。怀特说,浏览器公司通过他们产生的搜索结果赚钱。“我们正在表明,还有其他使用互联网的模式,它们可以是特定领域的——贩卖、反恐、疾病应对等,”他补充说。“[它]不仅仅是为了让人们点击广告。”
Google的搜索引擎梳理了Google的互联网索引,Google使用名为蜘蛛的软件程序构建该索引,这些程序查找和编目网页。Google搜索的结果由指向该公司搜索引擎可以在该索引中找到的最相关信息的链接组成。Google主要根据每个页面的受欢迎程度对这些链接进行排名。Yahoo、Bing和其他流行的搜索引擎的功能也大致相同。“当前引擎上发生的大部分是实体搜索——我正在寻找关于音乐家、事件或产品的信息,”伦斯勒理工学院数据探索与应用研究所所长、计算机与认知科学无缆世界教授詹姆斯·亨德勒解释说。“在现有的搜索技术下,您必须猜测好的关键词才能获得您正在寻找的信息。如果您不知道正确的关键词,或者您需要将搜索结果置于上下文中,您就会遇到一个难题。”基本上,您要么获得大量通用链接,但对它们如何与您的原始查询相关联没有清晰的概念,要么获得一个简短的列表,但该列表没有为您提供您需要的具体信息。
更有价值的是介于这些极端情况之间的东西。亨德勒说,这正是Memex打算做得非常好的事情,亨德勒曾在1999年至2001年担任DARPA信息系统办公室的项目经理和首席科学家,尽管他没有参与Memex。
测试Memex
Memex在2014年2月进行了首次测试,当时怀特和他的团队与新泽西州区域行动情报中心合作,监控和 disruption 与在花园州大都会人寿体育场举行的第四十八届超级碗相关的任何性贩卖激增。DARPA科学家使用早期版本的Memex工具,让警方了解问题的范围。更具体地说,他们分析了性服务广告中的图像,以确定这些广告中的女性是否出现在以前的广告中,还是新的,可能是专门为满足围绕大型比赛增加的需求而带到纽约-新泽西地区的。
在去年八月,怀特向更多的beta测试人员推出了Memex——两个地方检察官办公室,一个执法团体和一个非政府组织(NGO)。尽管怀特不愿透露这些用户的身份,但他表示,他们在打击人口贩卖方面的工作涵盖了起诉、行动和受害者外展。
下一轮测试将在几周后开始,并将包括联邦和地区检察官、区域和国家执法部门以及多个非政府组织。这一轮的主要目标之一是测试新的图像搜索功能,该功能可以分析照片,即使可能有助于调查人员的部分——包括贩卖者的面孔或背景中的电视屏幕——被模糊化。另一个目标是尝试不同的用户界面,并尝试评估时间敏感数据的流式架构。
怀特说,他希望每季度扩大用户测试,直到他和他的团队创建了一个他们可以放心地移交给执法机构和检察官的Memex版本。当这种移交发生时,诸如网络爬虫、机器学习算法和图形分析等软件组件将被本地安装在执法机构中,这些组件可以搜索表层网络和深网。它们将连接到机构和公众通常会使用的常规基于浏览器的软件,例如Firefox和Chrome。这将确保执法部门可以从任何连接互联网的设备访问该软件。
表层网络
怀特就Memex可以访问的数据类型做出了几个关键决定,以努力避开围绕政府访问公民私人信息和通信的争议,这是一个特别敏感的话题,自从爱德华·斯诺登的国家安全局爆料于2013年6月开始以来。怀特说,如果某项内容受密码保护,则它不是公共内容,Memex不会搜索它。“我们不想进行黑客攻击,”他补充说。“我们不想通过不必要地拖入窥探和监视的幽灵来使这项工作蒙上阴影。”怀特和他的团队发现,有足够的公共内容来挑战他们,因为他们正在开发工具以帮助执法部门和检察官。
此类内容可以在大多数人熟悉的表层网络以及深网或“暗网”中找到,后者是未索引深网的子集,需要专门的软件和算法才能找到和浏览。运行地下丝绸之路网络黑市的人员等经常使用暗网匿名发布可能合法也可能不合法的内容。
当然,暗网站点已经引起了DARPA的注意,因为它们是人口贩卖活动的良好候选者。因此,怀特和他的团队正在开发一个“暗网爬虫”,该爬虫探索深网中Tor可访问的点对点区域,并且迄今为止在很大程度上启发了研究人员了解暗网活动的程度。怀特说,暗网曾经被认为由大约1000页组成,但现在可能有30,000到40,000个暗网页面。“仅仅找到这些页面并查看其内容就是搜索技术的一个新方面,”他说。
DARPA选择以执法努力 disruption 人口贩卖作为一项具体的事业,围绕这项事业,它可以快速开发和部署其新的互联网搜索方法。怀特相信,Memex技术同样可以应用于任何类型的调查工作,包括反恐、失踪人员、疾病应对和救灾。
也许有一天,它甚至会为寻找餐厅评论、礼品创意和互联网绝大多数用户渴望的其他更平凡的信息提供更好的方法。