谷歌学术,这个免费的学术文献搜索引擎,将于 11 月 18 日迎来十周年。通过“爬取”数百万篇学术论文的文本,包括那些在出版商付费墙后的论文,它改变了研究人员在线查阅文献的方式。在今年《自然》杂志的一项调查中,约有 60% 的科学家表示他们经常使用这项服务。《自然》杂志采访了该服务的联合创始人、目前仍在运营该服务的阿努拉格·阿查里亚,了解了谷歌学术的历史以及他对未来的展望。
您如何知道要索引哪些文献?
“学术”是学术领域中其他所有人都认为是学术的东西。这听起来像一个递归定义,但它确实会稳定下来。我们爬取整个网络,例如,对于一个新的博客,你会看到它与你已经知道的其他学术成果的联系。如果很多人引用它,或者它引用了很多人,那么它可能就是学术性的。没有一个神奇的公式:你需要从许多特征中获得证据来判断。
谷歌学术的想法从何而来?
我于 2000 年来到谷歌,当时是从我在加州大学圣巴巴拉分校的学术职位休假一年。很明显,我在谷歌的影响力可能比在学术界更大——使世界各地的人们都能找到信息。所以我放弃了学术界,并领导了谷歌的网页索引团队四年。那是一段非常忙碌的时期,基本上,我筋疲力尽了。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保关于塑造当今世界的发现和想法的具有影响力的故事的未来。
Alex Verstak [阿查里亚在网页索引团队的同事] 和我决定休假六个月,尝试让查找学术文章更轻松、更快捷。这个想法不是为了开发谷歌学术,而是为了改进我们在网页搜索中对学术文档的排名。但试图这样做的问题在于弄清楚搜索者的意图。他们想要学术结果还是只是普通人?我们说,“假设你不必解决这个难题;假设你知道搜索者有学术意图。”我们建立了一个内部原型,人们说:“嘿,这本身就很好。你不必解决另一个问题——我们开始吧!”然后,谷歌学术显然非常有用和重要,所以我最终留下来了。
它是一举成功的吗?
它非常受欢迎。一旦我们推出它,使用量呈指数增长。一个很大的不同是我们进行了相关性排名[按与用户请求的相关性对结果进行排序],而学术搜索服务之前没有这样做过。他们是按时间倒序排列[首先提供最新的结果]。我们还爬取了研究文章的全文,尽管我们一开始并没有包含所有出版商的全文。
在某些情况下,您花了数年时间才说服出版商让您爬取他们的全文。这很难吗?
这取决于情况。你必须回想十年前,那时网页搜索被认为是轻量级的——人们会用它来查找布兰妮·斯皮尔斯的照片,而不是学术文章。但我们知道人们向我们发送纯粹的学术查询。我们只是必须说服出版商,我们的服务会被使用,并会给他们带来更多的流量。当然,在谷歌学术推出之前,我们已经与他们中的许多人合作了。
在 2012 年,谷歌学术被从谷歌主页的搜索选项下拉菜单中移除。您是否担心谷歌学术可能会被降级或关闭?
不会。我们的团队在不断壮大,从最初的两个人增加到现在的九个人。人们可能将菜单移除视为降级,但事实并非如此。这些菜单链接是为了帮助用户从主页转到另一项服务,因此它们强调最常用的转换。如果用户已经知道从谷歌学术开始,他们就不需要这种转换。这就是全部原因。
谷歌学术如何赚钱?
谷歌学术目前不赚钱。谷歌有很多服务都没有赚到很多钱。谷歌学术的主要作用是回馈研究界,而且我们之所以能够做到这一点,是因为从谷歌的角度来看,它并不昂贵。就查询量而言,谷歌学术与许多谷歌服务相比规模较小,因此广告货币化的机会相对较小。没有货币化的压力。鉴于参与其中的人数,谷歌学术提供的益处非常显著。人们在内部喜欢它——我们都,在某种程度上,是前学术界人士。
谷歌学术每天收到多少查询?该服务跟踪多少文献?(估计范围从1 亿到1.6 亿篇学术项目)。
我无法告诉您,只能说这是一个非常非常大的数字。文献的答案也一样,只是自我们推出以来,索引的项目数量增长了一个数量级左右。很多人都想知道这个规模。但是这种讨论没有用——这只是“自行车棚效应”。我们的挑战是看看人们多久能够找到他们需要的文章。如果索引太小,那么索引的大小可能是一个问题。但我们显然足够大了。
谷歌学术推出了额外的服务:作者个人资料页面和一个推荐引擎。这是否将其从搜索引擎转变为更接近文献计量工具的东西?
是的,也不是。个人资料的一个重要目的是帮助您找到您需要的文章。通常,您不记得如何准确查找文章,但您可能会从您记得的论文转向作者及其其他论文。您还可以关注其他人的工作——这是查找文章的另一种关键方式。当然,个人资料还有其他用途。一旦我们知道您的论文,我们就可以跟踪您的学科如何随着时间的推移而发展,您所联系的学术界人士,甚至可以推荐您所在领域的人们感兴趣的其他主题。这有助于推荐引擎,这比[搜索引擎]更进一步。
您是否担心被称为游戏的做法——人们创建虚假论文,让谷歌索引它们,并获得虚假引用?
不是真的。是的,您可以添加任何您想要的论文。但是一切都是完全可见的——您的个人资料中的文章、引用您的文章、它们的托管位置等等。世界上任何人都可以指出它,基本上会毁掉你的职业生涯。我们没有看到垃圾邮件,原因就在于此。我在处理垃圾邮件方面有很多经验,因为我曾经从事网页搜索工作。当人们匿名时,垃圾邮件更容易。如果我试图为我的公共声誉建立出版历史,我会相对谨慎。
您希望在未来看到哪些功能?
我们非常擅长帮助人们找到他们正在寻找并且可以描述的文章。但是我们希望做的下一件大事是让你找到你需要但你不知道要搜索的文章。我们能更容易地创造意外发现吗?我们如何才能帮助每个人在研究前沿运作,而无需扫描数百篇论文——这是一种非常低效的查找方式——并且整天无所事事?
我不知道我们将如何实现这一点。我们在这方面做了一些初步的努力(例如推荐引擎),但这远未达到它应有的水平。向您提供您没有主动搜索的信息存在一个固有问题。它必须是相关的——这样我们就不会浪费你的时间——但也不能太相关,因为你已经知道这些文章了。而且它必须避免来来往往的短期兴趣:你查找某些东西,但你不想在你的余生中一直收到有关它的垃圾邮件。我不认为让我们的用户“训练”推荐模型会奏效——那太费力了。
(有关推荐服务的更多信息,请参阅《自然》杂志工具箱部分的“如何驾驭文献的洪流”。)
帮助人们直接搜索科学数据而不是论文怎么样?
这是一个有趣的想法。爬取隐藏在付费论文中的数据是可行的,就像我们对全文所做的那样。但是,如果我们将用户链接到付费文章,他们就看不到这些数据——只能看到论文的摘要。对于索引全文文章,我们依赖于摘要让用户评估文章的可能效用。对于数据,我们没有任何类似的东西。因此,作为学术交流领域,我们尚未开发出一种能够提供有用的数据搜索服务的模型。
许多人都希望谷歌学术中有一个 API(应用程序编程接口),以便他们可以编写自动进行搜索或检索个人资料信息并在该工具之上构建服务的程序。这可能吗?
我做不到。我们与出版商的索引安排不允许这样做。我们被允许扫描所有文章,但不允许批量地将此信息分发给其他人。能够与出版商合作非常重要,这样我们才能继续构建一个对所有人免费的综合搜索服务。这是我们的主要职能,其他一切都是在此基础上的补充。
您认为自己会在未来十年内在谷歌学术工作吗?
我一开始真的没想过会在 Google 学术工作十年!我妻子提醒我说,原本应该是五年,然后是七年——而现在我仍然没有离开。但这是我知道我能做的最重要的事情。我们基本上是在让这个星球上最聪明的人们更有效率。这是一个非常有吸引力的命题,而且我不认为我会在短期内,或者轻易地离开 Google 学术。
您对免费、高效搜索引擎的渴望是否可以追溯到您在印度理工学院卡拉格普尔分校求学的那段时间?
它影响了我感兴趣的问题。例如,没有其他服务可以索引论文的全文,即使当用户只能看到摘要时也是如此。我认为这是一个重要的发展方向的原因是,我意识到用户需要知道信息就在那里。如果你知道信息在一篇需要付费的论文中,并且这对你很重要,你就会想办法进去:例如,你可以写信给作者。我在卡拉格普尔就这么做过——效率真的很低,速度也很慢!所以我的经历影响了我采取的方法。但现在,Google 学术已经有了自己的生命。
使用 Google 学术的人是否应该担心数据隐私?
我们使用标准的 Google 数据收集政策——对于学术搜索来说没有任何不同。我在 Google 的角色专注于 Google 学术。因此,我无法对更广泛的问题发表更多看法。
本文经许可转载,并于 2014 年 11 月 7 日首次发表。