印第安纳大学伯明顿分校信息科学副教授、应用信息学实验室主任贾韦德·穆斯塔法(Javed Mostafa)解释道。
据估计,通过搜索引擎访问的文本信息量至少是世界最大图书馆——美国国会图书馆所有书籍数字化内容的40倍。提供如此庞大信息量的访问是一个挑战,但目前的搜索引擎在筛选内容和识别与查询相关的链接方面做得非常出色。
网络上有大量的信息提供商。其中包括常见的公开来源,如谷歌、InfoSeek、NorthernLight 和 AltaVista 等。第二组来源——有时被称为“隐藏网络”——就其提供的信息量而言,比公共网络大得多。后一组包括 Lexis-Nexis、Dialog、Ingenta 和 LoC 等来源。它们之所以保持隐藏状态有多种原因:它们可能不允许其他信息提供商访问其内容;它们可能需要订阅;或者它们可能要求付费访问。本文关注的是前一组,即公开可用的网络搜索服务,在此统称为搜索引擎。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续产出关于塑造当今世界的发现和思想的有影响力的报道。
搜索引擎采用各种技术来加速搜索。下面简要介绍一些常用技术。
预处理数据
搜索引擎节省时间的一种方法是通过预处理网络内容。也就是说,当用户发出查询时,它不会被发送到数百万个网站。相反,匹配是针对存储在一个站点中的预处理数据进行的。预处理是在一个名为“爬虫”的软件程序的帮助下进行的。爬虫由数据库维护者定期发送出去以收集网页。一个专门的计算机程序解析检索到的页面以提取词语。然后,这些词语与指向相应页面的链接一起存储在索引文件中。用户的查询是针对此索引文件进行匹配,而不是针对其他网站。
智能表示
在这种技术中,索引的表示经过仔细选择,目的是最大限度地缩短搜索时间。信息科学家已经开发出一种称为“树”的高效数据结构,与针对顺序列表进行的搜索相比,它可以保证显著缩短整体搜索时间(参见侧边栏)。为了适应许多用户同时进行的搜索并消除“等待队列”,索引通常在搜索站点的多台计算机上复制。
结果优先级排序
搜索结果产生的 URL 或链接通常数量众多。但由于语言的歧义性(例如,“window blind”与“blind ambition”),生成的链接通常与用户的查询并非同等相关。为了更快地访问最相关的记录(并将它们放在顶部或靠近顶部),搜索算法应用各种排名策略。一种常见的排名方法称为“词频-逆文档频率”(TFIDF),它考虑词语的分布及其频率,并为词语生成数值权重,以表示其在单个文档中的重要性。它生成的词语权重使得高频词(如“或”、“到”或“与”)以及在许多文档中出现的词语的权重远低于语义上更相关且在相对较少文档中出现的词语。
除了词语权重外,网页还可以使用其他策略进行加权。例如,链接分析考虑每个页面的性质,即它与其他页面的关联——即它是权威页面(指向它的其他页面的数量)还是中心页面(它指向的页面的数量)。非常成功的谷歌搜索引擎使用链接分析来改进其搜索结果的排名。
上下文和距离
为了快速识别最相关的链接,某些搜索引擎会将查询词与上下文信息进行比较,例如用户最近提交的查询。这种技术有时被称为“查询捕获”,涉及收集最近查询中的词语,并使用这些词语来消除歧义、改进或扩展当前查询。某些信息提供商可以加速搜索结果交付的另一种方法是使用分布式交付模型,即将索引和相关内容的副本复制并移动到多个地理位置,以缩短用户与内容之间的网络距离。内容提供商与 Akamai 等第三方服务合作实施分布式内容交付。
局限性
与上述某些加速技术相关的成本是存在的。进行索引的组织与生成实际内容的组织的分离可能会导致所谓的“链接腐烂”,即链接指向不再存在的页面。或者,指向新的网络内容的链接可能会丢失。“链接腐烂”和链接丢失都可能是由于爬取或重新索引的延迟造成的。一些爬虫盲目地检索页面,而不关注信息提供商的声誉或权威性。此过程鼓励为恶意目的操纵索引。一种常见的现象称为“索引垃圾邮件”。希望人为地提高其在搜索结果中排名的网站可能会在页面中使用与页面背景颜色匹配的字体颜色放置数千个单词。此过程对查看者隐藏了这些词语,但使它们可用于索引。最后,通过利用 Web 服务器软件的一项功能,信息提供商可以操纵它为不同主机发出的相同请求返回不同的页面。这导致了“页面劫持”,即一个网站可以复制竞争对手的页面,让搜索引擎主机将其索引为自己的页面,并将来自其他主机对原始页面的请求定向到替代内容或站点。
答案最初发表于 2002 年 10 月 14 日。