在不到十年的时间里,互联网搜索引擎彻底改变了人们收集信息的方式。我们不再需要跑到图书馆去查找资料;只需在键盘上点击几下,就能找到相关的文件。现在,“谷歌一下”已经成为做研究的代名词,在线搜索引擎正准备进行一系列升级,有望进一步提升我们查找所需内容的方式。
新的搜索引擎正在通过更深入地挖掘在线可用材料的存储库、更好地对这些结果进行排序和呈现,以及跟踪您的长期兴趣,从而改进结果的质量,以便他们能够改进对新信息请求的处理。未来,搜索引擎还将扩展内容视野,不仅仅是处理输入文本框的关键词查询。它们将能够自动考虑您的位置——例如,当您旅行时,让您的无线PDA精确定位最近的餐厅。新的系统还将通过将您的草图与相似的形状进行匹配,更快地找到合适的图片。如果您哼唱几句,它们甚至能够说出您半生不熟的曲调名称。
今天的搜索引擎起源于一个名为信息检索的研究领域,这是一个可以追溯到近50年前的计算主题。在1966年9月《大众科学》杂志上发表的题为“信息存储和检索”的文章中,本·阿米·利佩茨描述了当时最先进的信息技术如何只能处理例行或文书工作。然后,他富有洞察力地得出结论,信息检索领域的突破将出现在研究人员更深入地了解人类如何处理信息,然后赋予机器类似能力的时候。显然,计算机尚未达到那种复杂程度,但在完成任务时,它们肯定会更多地考虑用户的个人兴趣、习惯和需求。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。
预筛选页面
在讨论该领域的新发展之前,了解当前搜索引擎的运作方式会有所帮助。当计算机用户在屏幕上看到谷歌在例如 0.32 秒内筛选了数十亿份文档时,会发生什么?由于将用户的关键词查询与单个网页逐个匹配会花费太长时间,因此系统会在用户进行搜索之前执行几个关键步骤。
正在努力使搜索“隐藏网络”像搜索可见网络一样容易。
首先,持续识别和收集潜在内容。称为爬虫的特殊软件代码用于探测网络上发布的页面,检索这些页面和链接页面,并将页面聚合在单个位置。在第二步中,系统计算相关词语,并使用各种统计技术确定它们的重要性。第三,从相关术语生成高效的数据结构或树,该结构将这些术语与特定的网页相关联。当用户提交查询时,搜索的是已完成的树,也称为索引,而不是单个网页。搜索从索引树的根部开始,在每一步,树的分支(代表许多术语和相关的网页)要么被遵循,要么被排除在考虑范围之外,从而以指数方式减少搜索时间。
为了将相关的记录(或链接)放置在检索列表的顶部或附近,搜索算法应用各种排名策略。一种常见的排名方法——词频/逆文档频率——考虑词语的分布及其频率,然后为词语生成数值权重,这些权重表示词语在各个文档中的重要性。频繁出现的词语(例如“或”、“到”或“与”)或出现在许多文档中的词语的权重明显低于语义上更相关或出现在相对较少文档中的词语。[break]
除了词语加权外,还可以使用其他策略对网页进行排名。例如,链接分析考虑每个页面的性质,就其与其他页面的关联而言——即,如果它是一个权威(通过指向它的其他页面的数量)或一个中心(通过它指向的页面的数量)。谷歌使用链接分析来改进其搜索结果的排名。
卓越的引擎
在谷歌崛起为主导地位的六年里,它比竞争对手提供了两个关键优势。一,它可以处理超大规模的网络爬取任务。二,其索引和加权方法产生了卓越的排名结果。然而,最近,搜索引擎构建者开发了几种新的、同样有能力的方案,其中一些方案在某些方面甚至更好。
最近,亚马逊、Ask Jeeves 和谷歌宣布了一些计划,这些计划将允许用户个性化他们的搜索。
今天的大部分数字内容仍然无法访问,因为许多托管(持有和处理)该材料的系统不会像用户通常查看的那样存储网页。这些资源在用户与它们交互时按需生成网页。典型的爬虫会被这些资源难倒,并且无法检索任何内容。据一些估计,这使得大量信息——大约是传统网络规模的 500 倍——对用户隐藏。正在努力使搜索“隐藏网络”像搜索可见网络一样容易。
为此,程序员开发了一类软件,称为包装器,它利用了在线信息倾向于使用标准化的“语法”结构呈现的事实。包装器以各种方式完成其任务。一些包装器利用搜索查询的习惯语法和在线资源的标准格式来访问隐藏内容。其他系统则利用应用程序编程接口,这些接口使软件能够通过一组标准的操作和命令进行交互。BrightPlanet 的 Deep Query Manager 是一个提供对隐藏网络访问的程序的示例。这种基于包装器的查询管理器可以为超过 70,000 个隐藏网络资源提供定制化的门户和搜索界面。
仅仅依靠链接或词语来建立排名,而不对正在比较的页面类型施加任何约束,就为欺骗或游戏排名系统以误导查询打开了可能性。例如,当在三大搜索引擎——谷歌、雅虎和 MSN 上执行查询“miserable failure”时,来自 whitehouse.gov 站点的页面会作为检索链接结果集中的首项出现。
某些搜索引擎不是向用户提供排名项目的列表(这可以相对容易地被欺骗),而是尝试识别与查询最匹配的页面中的模式,并将结果分组为更小的集合。这些模式可能包括常用词、同义词、相关词,甚至使用特殊规则识别的高级概念主题。这些系统用其相关术语标记每个链接集。然后,用户可以通过选择特定的结果集来进一步细化搜索。Northern Light(它率先使用了这项技术)和 Clusty 是呈现聚类结果的搜索引擎。
Mooter 是一款创新的搜索引擎,它也采用了聚类技术,通过可视化地呈现其聚类,为研究人员提供了几个额外的优势。它将子类别按钮围绕代表所有结果的中心按钮排列,就像轮子的辐条一样。点击聚类按钮会检索相关链接列表和新的相关聚类。Mooter 记住选择的聚类。通过点击“细化”选项,将先前检索到的搜索聚类与当前查询结合起来,用户可以获得更精确的结果。[break]
Kartoo 也是一款采用可视化的类似搜索引擎。它是一个所谓的元搜索引擎,它将用户的查询提交给其他搜索引擎,并以可视化的形式提供聚合结果。除了与各种站点相关的关键词列表外,Kartoo 还显示一个“地图”,该地图将重要站点描绘为图标,并将站点之间的关系描绘为标记路径。每个标签都可以用于进一步细化搜索。
计算机工具简化搜索的另一种方式是通过浏览您的硬盘驱动器以及网络。目前,在计算机用户的桌面上搜索文件需要单独的软件应用程序。例如,谷歌最近宣布了桌面搜索,它结合了这两个功能,允许用户为给定的搜索指定硬盘或网络,或两者都指定。微软的操作系统下一个版本,代号为 Longhorn,预计将提供类似的功能。使用在另一个名为 Stuff I've Seen 的微软项目中开发的技术,Longhorn 可能会提供“隐式搜索”功能,该功能可以在用户不必指定查询的情况下检索相关信息。据报道,隐式搜索功能从用户最近操作的文本信息(例如电子邮件或 Word 文档)中收集关键词,以定位和呈现来自存储在用户硬盘驱动器上的文件的相关内容。微软可能会将搜索功能扩展到网络内容,并使用户能够更方便地将屏幕上显示的任何文本内容转换为查询。
搜索我
最近,亚马逊、Ask Jeeves 和谷歌宣布了一些计划,试图通过允许用户个性化他们的搜索来改进搜索结果。亚马逊搜索引擎 A9.com 和 Ask Jeeves 搜索引擎 MyJeeves.ask.com 可以跟踪查询和检索到的页面,并允许用户以书签方式永久保存它们。在 MyJeeves 中,可以查看和重新执行保存的搜索,从而提供了一种开发个人组织的网络子集的方法。亚马逊的 A9 可以支持类似的功能,并且还使用个人搜索历史来建议其他页面。这种建议功能类似于亚马逊著名的图书推荐功能,该功能利用用户社区的搜索和购买模式——有时称为协同过滤。
A9 和 MyJeeves 中的搜索历史记录不是保存在用户的机器上,而是保存在搜索引擎服务器上,以便可以对其进行保护并在以后用于后续搜索的任何机器上检索。
在个性化谷歌中,用户可以通过从预生成的主题层次结构中进行选择来指定他们特别感兴趣的主题。它还允许用户指定他们对各种主题或领域的兴趣程度。然后,系统使用选定的主题、指示的兴趣级别和原始查询来检索和排名结果。
尽管这些搜索系统提供了重要的新功能,但它们仅代表增量增强。如果搜索引擎可以考虑到一个人查询的更广泛的任务上下文——也就是说,用户最近的搜索主题、个人行为、工作主题等等——它们的实用性将大大提高。然而,确定用户上下文将需要软件设计人员克服严重的工程障碍。开发人员必须首先构建自动监控用户兴趣和习惯的系统,以便搜索引擎可以确定一个人进行信息搜索的上下文、用户正在运行的计算平台以及他或她的一般使用模式。在预先建立这些点并将其放置在所谓的用户配置文件中之后,软件可以随后交付适当的定制信息。获取和维护关于用户的准确信息可能被证明是困难的。毕竟,大多数人都不太可能忍受输入个人数据(除了标准搜索活动所需的数据之外)的麻烦。[break]
网络搜索者将使用在信息中建立广泛模式的界面来引导浏览大量数据存储库。
关于个人兴趣的良好信息来源是用户网络浏览行为的记录以及他们系统中常见应用程序的其他交互。当一个人打开、阅读、播放、查看、打印或共享文档时,引擎可以跟踪他或她的活动并使用它们来指导特定主题的搜索。此过程类似于微软开发的隐式搜索功能。PowerScout 和 Watson 是首批引入的能够将搜索与从间接来源生成的用户兴趣配置文件集成的系统。PowerScout 仍然是一个未发布的实验室系统,但 Watson 似乎正在接近商业化。程序员现在正在开发更复杂的软件,该软件将随时间推移收集交互数据,然后生成和维护用户配置文件以预测未来的兴趣。
然而,这些系统中的基于用户配置文件的技术尚未被广泛采用。各种因素可能是造成这种情况的原因:一个问题可能是与跨不同任务和在较长时间内维护配置文件准确性相关的问题。需要重复评估以建立稳健的配置文件。用户的注意力可能会以不可预测的和微妙的方式变化,这可能会显着影响检索结果。
另一个因素是隐私保护。网络导航轨迹、保存的搜索和与应用程序交互的模式可以泄露大量秘密个人信息(甚至达到泄露用户身份的程度)。少数可用的软件系统允许用户匿名地从网站获取内容。这些工具使用的主要方法是中间或代理服务器,用户的交易通过这些服务器传输和处理,以便托管数据或服务的站点仅知道代理系统,而无法将请求追溯到个人用户。此技术的一个实例是 anonymizer.com 站点,该站点允许用户隐身浏览网络。另一个示例是 Freedom WebSecure 软件,它采用多个代理和多层加密。尽管这些工具提供了合理的安全性,但尚不存在既能实现用户个性化又能提供强大隐私保护的搜索服务。在维护隐私与配置文件的好处之间取得平衡仍然是一个关键挑战。
在路上
另一类情境感知搜索系统将考虑一个人的位置。例如,如果度假者携带可以接收和解释来自全球定位系统 (GPS) 信号的 PDA,或者使用射频技术来建立和持续更新位置,则系统可以利用该功能。马里兰大学的研究人员正在开发此类技术的一个示例。它被称为 Rover,是一个跨广阔地理区域使用文本、音频或视频服务的系统。Rover 可以在用户附近区域呈现地图,突出显示合适的兴趣点。它能够通过将各种特定主题的“过滤器”应用于地图来自动识别这些点。
该系统还可以提供其他信息。例如,如果 Rover 客户端正在参观博物馆,则手持设备将显示该机构的楼层平面图和附近的展品。如果用户走到外面,PDA 显示屏将更改为区域地图,标记潜在的兴趣点位置。Rover 还允许操作员直接输入他或她的位置,并从联网数据库中检索定制信息。2003 年,创建 Rover 的团队和私营网络公司 KoolSpan 从马里兰州政府获得了资金,以共同开发用于安全无线数据传输和用户身份验证的应用程序。这种合作应该会产生一个更安全且商业上更可接受的 Rover 版本。[break]
不幸的是,基于 GPS 的系统的位置误差(从三到四米)仍然相当大。即使可以通过室内传感器和室外信标系统来提高此分辨率,这些技术的实施成本也相对较高。此外,非文本信息(尤其是图像、音频和视频)的分布将需要比当前手持设备可用的带宽或当今无线网络提供的带宽更高的带宽容量。IEEE 802.11b 无线局域网协议提供高达 11 兆比特/秒的带宽,已在提供位置感知搜索服务方面成功测试,但尚未广泛可用。
图片是这样的
情境可以不仅仅意味着用户的个人兴趣或位置。搜索引擎也在超越文本查询来查找图形材料。现在网络上提供了许多三维图像,但艺术家、插画家和设计师无法使用关键词有效地搜索这些图纸或形状。普林斯顿形状检索和分析小组的 3-D 模型搜索引擎支持三种生成此类查询的方法。第一种方法使用名为 Teddy 的草图板实用程序,该程序允许人们绘制基本的二维形状。然后,该软件从这些形状生成虚拟实体拉伸(通过在空间中拖动 2-D 图像)。第二种方法允许用户绘制多个二维形状(近似图像的不同投影),然后搜索引擎将平面草图与数据库中每个三维对象的 13 个预计算投影进行匹配。从理论上讲,此功能可以推广以支持从任何 2-D 图像数据集检索。一个人找到图像的第三种方法是上传包含三维模型的文件。
该系统仍在开发中,它通过首先根据一系列数学函数(三维图像的谐波函数和二维表示的三角函数)描述每个形状来匹配查询与形状。然后,系统从每个函数生成某些“指纹”值,这些值对于每个关联的形状都是特征性的。这些指纹称为球形或圆形签名。使用这些描述符产生两个好处:无论原始形状和搜索形状如何定向,它们都可以匹配,并且可以快速计算和匹配描述符。
那首歌叫什么名字?
音乐也已进入搜索引擎领域。查找特定曲调的关键问题是如何最好地制定搜索查询。一种解决方案是使用乐谱或基于乐谱转录的查询语言,该语言允许用户通过键入字母数字字符来表示音符来指定曲调。然而,大多数用户发现很难将他们脑海中的歌曲转换为乐谱。
由新西兰数字图书馆项目设计的 Meldex 系统通过提供几种查找音乐的方式来解决问题。首先,用户可以通过在系统的虚拟键盘上弹奏音符来录制查询。或者他或她可以将歌曲哼唱到计算机麦克风中。最后,用户可以将歌词指定为文本查询,或将歌词搜索与基于曲调的搜索相结合。
为了使 Meldex 系统工作,新西兰研究人员必须克服几个障碍:如何将音乐查询转换为可以轻松计算的形式;如何以数字方式存储和搜索歌曲乐谱;以及如何将这些查询与存储的音乐数据进行匹配。在系统中,一个称为量化的过程识别查询中的音符和音高。然后,Meldex 通过分析波形的结构自动检测音高作为时间的函数,并将它们映射到数字音符。系统将音符和完整的作品都存储在乐谱数据库中。使用数据字符串匹配算法,Meldex 查找转换为音符的音乐查询,这些音符与乐谱数据库中的音符相对应。由于查询可能包含错误,因此字符串匹配功能必须容纳一定量的“噪声”。[break]
搜索未来
未来的搜索服务将不限于传统的计算平台。工程师们已经将它们集成到一些汽车移动数据通信(远程信息处理)系统中,并且很可能他们还将搜索功能嵌入到娱乐设备中,例如游戏站、电视和高端立体声音响系统。因此,搜索技术将在看不见的辅助角色中发挥作用,通常通过智能网络服务,在驾驶车辆、听音乐和设计产品等活动中发挥作用。
网络搜索的另一个重大变化将围绕新的商业交易展开,这些交易将大大扩展对大量已发布材料(包括文本、视频和音频)的在线覆盖范围,计算机用户目前无法访问这些材料。
具有讽刺意味的是,下一代搜索技术在执行其日益复杂的工作时,将变得更加可见和更不明显。可见的角色将由更强大的工具来代表,这些工具将搜索功能与数据挖掘操作相结合——专门的系统,用于在数据库中查找趋势或异常,而实际上并不知道数据的含义。看不见的角色将涉及为各种应用程序和平台开发无数智能搜索操作作为后端服务。数据挖掘和用户界面技术的进步将使单个系统能够自动提供一系列复杂的搜索服务,这些服务与交互式可视化功能无缝集成。
通过利用机器学习和分类技术的进步,这些技术将能够更好地理解和分类网络内容,程序员将开发易于使用的可视化挖掘功能,这些功能将为搜索功能增加高度可见和交互式的维度。行业分析师预计,将提供各种挖掘功能,每种功能都经过调整以搜索来自特定领域或格式(例如,音乐或生物数据)的内容。软件工程师将设计这些功能以快速方便地响应用户的需求,尽管它们将处理大量信息。网络搜索者将使用在信息中建立广泛模式而不是挑选单个记录的可视化丰富界面来引导浏览大量数据存储库。最终,计算机用户将很难确定搜索何时开始,理解何时开始。