1994年,我重塑了自我。作为通用原子公司的一名物理学家和工程师,我隶属于一个内部智囊团,负责解答公司任何部门提出的难题。多年来,我参与了各种各样的项目,从冷核聚变到捕食者无人机。但在 20 世纪 90 年代初,我开始频繁地与生物学家和遗传学家合作。他们会告诉我他们进行研究需要哪些酷炫的新技术;而我会尝试发明它们。
大约在那时,我听说了名为“人类基因组计划”的新项目。其目标是破译人类染色体中约 30 亿个 DNA 碱基或密码字母的序列。我对此着迷不已。我碰巧在本杂志上读到一篇文章,指出一些必要的技术尚未发明出来。物理学家和工程师必须实现这一目标。不知不觉地,我发现自己成为了德克萨斯大学西南医学中心的教授,在那里,我和我的科学伙伴,一位遗传学家,正在建立人类基因组计划的首批研究中心之一。
那里的一切都截然不同。我的同事们说的是另一种语言——医学。我说的是物理学。在物理学中,基本方程支配着几乎所有事物。在医学中,没有通用的方程——只有大量的观察结果、一些零碎的理解以及大量的术语。我会参加研讨会,记下大量我从未听过的词汇,然后在之后花上几个小时来查阅它们。为了阅读一篇科学论文,我必须手边备着一本医学词典。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事能够拥有未来。
由于无法理解任何连贯的文本,我感到沮丧,于是决定开发软件来帮助我。我想要一个搜索引擎,它可以接收一段文本,并返回参考文献以供进一步阅读,以及摘要和论文,从而让我快速了解手头的主题。这是一个难题。网络搜索引擎才刚刚兴起。它们对于找到镇上最好的沙拉三明治餐厅来说还不错,但它们无法开始消化包含多个相互关联的概念的段落,并为我指出相关的读物。
在一些学生和博士后的帮助下,我着手研究文本分析,并共同开发了一个名为 eTBLAST(电子文本基本局部比对搜索工具)的软件。它的灵感来自于软件工具 BLAST,该工具用于搜索 DNA 和蛋白质序列数据库。BLAST 的查询通常是一系列 100 到 400 个 DNA 字母,并且会返回包含这些代码的更长序列。eTBLAST 的查询将是一个段落或页面——通常是 100 个或更多单词。设计搜索协议比设计搜索字母字符串的软件更难,因为搜索引擎不能仅仅是字面意义上的。它还必须识别同义词、首字母缩略词和用不同词语表达的相关概念,并且它必须考虑词序。为了响应由一段文本组成的查询,eTBLAST 将返回一个来自它正在搜索的数据库的排名“命中”列表,以及查询和找到的每个摘要之间的相似性度量。
显而易见的搜索数据库是 Medline(可从 PubMed (pubmed.org) 获取),它是美国国立卫生研究院国家医学图书馆维护的生物学研究知识库,与医学相关。它包含数千种同行评审期刊的数百万篇研究论文的标题和摘要。Medline 有一个基于关键词的搜索引擎,因此对几个词语(例如,“乳腺癌基因”)的查询会返回大量命中,通常带有指向全文论文的链接。但作为一名新转行的生物医学研究人员,我甚至不知道如何开始我的许多搜索。
最初版本的 eTBLAST 需要数小时才能将几百个单词的段落与 Medline 进行比较。但是该软件奏效了。使用 eTBLAST,我可以逐段地理解科学论文,掌握其含义。我可以将研究生的论文提案放入其中,并快速了解相关文献。我的研究伙伴甚至与谷歌讨论了我们的软件商业化事宜,但却被告知它与该公司的商业模式不符。
然后,事件发生了奇怪的转变。有几次,我发现学生提案中的文本与其他未引用的论文中的文本完全相同。这些学生接受了补救性伦理培训。我收到了一个将改变我职业生涯的研究问题:专业生物医学文献中有多少是抄袭的?
似曾相识
当我着手探索这个新问题时,关于生物医学剽窃的研究包括匿名调查。在我发现的最新调查中,研究人员承认 1.4% 的时间存在剽窃行为。但是这个数字的准确性取决于调查对象的诚实程度。借助 eTBLAST,我们可以找出他们是否在说真话。
一旦我们获得了足够的学生帮助和一台足够强大的计算机,我们便从 Medline 中随机选择了摘要,然后将它们用作 eTBLAST 查询。计算机会将查询文本与 Medline 的全部内容进行比较,寻找相似之处,然后返回命中列表。每个命中都带有相似性得分。查询始终位于列表的顶部——相似度为 100%。第二个命中的相似性得分通常在个位数到 30% 之间。但偶尔,我们发现第二个,有时甚至是第三个命中的得分接近 100%。在运行了几千个查询后,我们开始看到大约 5% 的查询具有可疑的高相似性得分。我们通过肉眼审查了这些摘要,以确保该软件找到的东西是人类会认为相似的东西。然后,我们继续比较摘要高度相似的论文的全文。
很快,我们开始发现公然的剽窃示例——不仅仅是回收利用的短语,而是整篇论文的全文照搬。这令人失望,甚至令人震惊。当然,我们知道调查显示,1.4% 的研究人员承认剽窃。但是,并排查看抄袭论文的示例是完全不同的事情。特别是对于学生来说,这个过程令人兴奋。他们感觉自己像是打击犯罪的斗士,从某种意义上说,他们确实是。
下一步是扩大计算规模和分析规模。为了彻底起见,我们想对 Medline 中每个足够长度的条目执行相似性搜索——当时,几乎有 900 万个条目,每个条目平均包含 300 个单词,乘以近 900 万次比较。这项任务花费了数月时间,并消耗了我们实验室相当多的计算能力。随着结果的出现,我们对其进行了分析,并将所有高度相似的结果放入我们称之为 Déjà Vu 的数据库中。
Déjà Vu 开始填充成对的高度相似的 Medline 摘要——大约 80,000 对相似度至少为 56% 的摘要对。这些摘要对中的绝大多数都非常相似,原因非常充分——例如,它们是旧论文的更新或会议摘要。但其他摘要对则令人怀疑。
我们向自然杂志提交了一篇论文,其中包含关于剽窃和重复发表(有时称为自我剽窃)频率的数据、关于 Déjà Vu 数据库内容以及一些主要示例的详细信息。(大众科学是自然出版集团的一部分。)编辑们接受了,但由于我们提到了一些摘要是抄袭的,律师们把这篇论文撕成了碎片。他们提出了一个很好的观点:唯一可以做出剽窃决定的机构是编辑和伦理审查委员会。我们只能提供事实——任何两篇科学文献之间的文本重叠量或相似度。最终,在律师的批准下,我们就是这样做的。
当自然杂志的报告发布后,一切都乱了套。期刊编辑们很不高兴,因为这给他们带来了额外的工作。为了保护他们的版权,原始论文的编辑不得不坚持撤回被抄袭的论文。当然,第二家出版商感到尴尬。科学家们很生气,因为我们的结果似乎暴露了同行评审的缺陷。但每个人都勉强承认,这是一个重要的话题和一个严重的问题。科学家和临床医生会根据他们在文献中读到的内容做出关键决策。如果这些决策是基于被污染的研究,那意味着什么?
最终,我们确定 0.1% 的专业出版物是公然抄袭他人的作品。(我们只寻找彼此几乎完全相同的论文;肯定还有更多论文片段被抄袭的情况,但由于我们的软件只搜索摘要,因此它不会检测到此类情况。)大约 1% 的论文是自我抄袭;一位作者的作品会以几乎相同的形式出现在多达五种期刊上。如果这些百分比看起来很小,请考虑每年都会发表大约 600,000 篇新的生物医学论文。
不久之后,我们注意到出版过程已经开始发生变化。期刊编辑开始使用 eTBLAST 来检查他们的投稿。我也发生了改变。我又一次进化了,在我的职位描述中增加了“伦理研究员”一项。
我作为伦理警察的生活
第一项大型剽窃研究仅仅是一个开始。了解剽窃的原因及其对科学的影响需要做更多的工作。何时重复文本是可以接受的?科学家何时以及为何会抄袭?文本分析还能揭示哪些其他类型的不道德行为?因此,我们改进了我们的软件,扩展了我们的数据库,并开展了新的研究。
我们随后的一些工作揭示了剽窃辩论中意想不到的细微差别。我们发现,在某些情况下,文本相似性不仅可以接受,而且是首选的。例如,在研究论文的方法部分中,最重要的考虑因素是结果的可重复性,非原创的措辞可以清楚地表明使用了完全相同的协议,从而服务于重要的目的。
我们还发现了一些真正令人发指的伦理失误。在一项发表在科学杂志上的研究中,我们选取了我们能找到的最公然的剽窃示例——成对的论文,其中论文 B 平均有 86% 与论文 A 相同——并对其进行了详细分析。我们将带有注释的论文副本以及保密调查问卷通过电子邮件发送给了与这些论文相关的作者和编辑。他们是否意识到了这种相似性?他们能解释吗?我们联系的人中有 90% 做出了回应。
一些作者透露了惊人的违反伦理的行为。一些人承认他们在审阅论文时抄袭了论文——并且他们给了这些论文差评以阻止其发表。其他人则将失误归咎于虚构的医学生。一位作者说他抄袭一篇论文是为了开玩笑。这个人碰巧是他所在国家国家伦理委员会的副主席。不出所料,那批受污染的论文中的大多数后来都被撤回了。
这些不是我们发现的最后违反伦理的行为。在 2012 年初,我们开始寻找重复申请资助的实例——即,从多个政府机构获得资金来做同样的工作。我们从政府和私人机构(包括美国国立卫生研究院、国家科学基金会、国防部、能源部和苏珊·G·科曼抗击乳腺癌基金会)下载了约 860,000 份拨款摘要,并对其进行了 eTBLAST 处理。这项研究需要进行 800,000 次乘以 800,000 次(大约 10
12)比较,以及超级计算机级别的算力。
在审查了 1,600 份最相似的拨款摘要后,我们发现大约 170 对摘要具有几乎相同的目标、目的或假设。我们得出了一些结论:重复申请资助长期以来一直存在;它涉及美国最负盛名的大学;以及由此造成的生物医学研究损失每年高达 2 亿美元。
科学出版的未来
一小部分人总是会打破社会规范,科学家也不例外。在绝望的时期,随着资金减少以及学术职位的竞争日益激烈,一些科学家注定会行为不端。事实上,近期大量涌现的可疑的、昙花一现的期刊已使科学出版成为一场狂野西部式的表演。现在比以往任何时候都更容易找到一个地方来发表你的材料,即使它是公然抄袭的。
文本分析为我们提供了一个用于监管不良行为的良好工具。但它最终可以做的远不止于揪出剽窃行为。它可以促进全新的研究共享方式。
一个有趣的想法是采用维基百科模式:创建一个关于某个主题的动态电子语料库,供科学家不断编辑和改进。每个新的“出版物”都将由对单一不断增长的知识体系的贡献组成;那些冗余的方法部分将变得不必要。维基百科模式将是朝着建立跨所有学科的所有科学出版物的中央数据库迈出的一步。作者和编辑可以使用文本挖掘来验证新研究的新颖性,并开发衡量思想或发现影响力的可靠指标。理想情况下,我们不应通过一篇论文获得的引用次数来衡量其影响力,而应衡量其对我们整体科学知识甚至对社会的影响。
在弗吉尼亚理工大学(我四年前搬到那里),我们正在努力维持 eTBLAST 的运行,但该软件仍然有数千名用户。与此同时,我的妻子和商业伙伴金·梅尼尔和我对文本分析持乐观态度。我们正在努力将揭露如此多剽窃实例的那种段落大小的相似性搜索应用于其他目的,包括拨款管理、市场研究和专利尽职调查。我们是否掌握了下一个谷歌?谁知道呢?但以我的经验来看,文本分析确实可以揭示真相。它曾经向我证明,科学家可能和我们其他人一样有缺陷。