一项针对生物医学研究文献的新计算机扫描发现,数万篇文章中似乎有整段段落是从其他论文中抄袭而来。根据这项研究,研究人员估计,在领先的研究数据库Medline中约 1700 万篇论文中,可能有多达 20 万篇重复论文。
这一发现已经导致一家出版物撤回了一篇论文,原因是该论文与另一位作者的先前文章过于相似。
德克萨斯大学西南医学中心达拉斯分校的研究人员 Mounir Errami 和 Harold “Skip” Garner 使用文本匹配算法,将 700 万份 Medline 摘要与数据库软件标记为密切相关的匹配条目进行比较。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您将有助于确保有关塑造我们今天世界的发现和思想的具有影响力的故事的未来。
Errami 说,研究人员将他们自己的软件工具 eTBLAST 设置为识别超过 45% 相同的配对。搜索发现了超过 70,000 个命中,研究人员和一个由三名助手组成的团队一直在手动检查这些命中。Errami 指出,到目前为止,他们已经检查了近 3,000 对摘要或全文文章(如果重复项的作者不同)。他指出,一些匹配项被发现是无意的重复,例如重印或翻译。
但在 79 个案例(且数量还在增加)中,作者不同的重复项没有明显的合法解释。该小组建立了一个名为 Déjà vu 的公共网站,以记录这些发现。
研究人员表示,在这些潜在剽窃案件中的下一步是期刊进行调查。在 Nature 的一份报告中,他们建议其他科学家“在经过适当机构(如编辑委员会或大学道德委员会)评估之前,暂缓对任何候选重复项做出判断。”
他们指出,迄今为止检查的大多数可疑重复项似乎是同一作者向多家期刊提交的论文,这是一种不太严重的道德失误,允许研究人员人为地夸大他们的出版学分,并增加其工作的分量。
Errami 和 Garner 估计,在 eTBLAST 命中的结果中,可能有 50,000 个,而在超过 1700 万条 Medline 条目中,可能有 200,000 个(0.01%)最终被证明是抄袭或重复列表。
先前的研究得出了不同的重复率。在明尼苏达大学 2002 年对 3,247 名生物医学研究人员进行的盲法调查中,4.7% 的人承认他们曾重新发表论文,1.4% 的人承认曾借用他人的作品。美国一位计算机科学家领导的 2006 年对物理学预印本数据库 arXiv 中超过 280,000 篇论文的分析发现,30,316 篇(10.5%)被怀疑是重复的,677 篇(0.2%)可能被剽窃。
行动与撤稿
德克萨斯大学西南医学中心的作者发现了三起他们自己的同事可能被抄袭的案例。Errami 和 Garner 提醒了相关作者和期刊,他们说这已导致相关出版物进行调查。
一项调查已经导致撤稿:期刊出版商 Elsevier 正在撤回哈佛医学院风湿病学家 Lee Simon 于 2004 年发表的一篇综述论文(总结现有研究),Elsevier 公司关系总监 Shira Tabachnikoff 说。根据 Déjà vu 的条目,Simon 发表在 Best Practice & Research Clinical Rheumatology 上的论文文本中有 55% 与德克萨斯大学西南医学中心风湿病学家 Roy Fleischmann 一年前发表在 Expert Opinion on Drug Safety 上的论文高度匹配。
SciAm.com 对这两篇文章的评论证实,Simon 32 页文章中的多个连续页面文本与 Fleischmann 19 页论文中的段落几乎相同;在后一篇论文中列出的 161 篇参考文献中,几乎所有参考文献都以相同的非字母顺序、非时间顺序排列在 2003 年的出版物中。
在撤稿前的电话采访中,Fleischmann 暂未指控 Simon 剽窃,等待 Elsevier 的决定,但他承认相似之处至少是可疑的。“对于文章的大部分内容来说,它在用词、逗号、句号、句子、段落上都是一模一样的,”他说。
Simon 承认他在 Fleischmann 的论文发表之前审阅过该论文,他为自己的文章辩护说,两位作者总结相同的研究主体的方式只有这么多。“这不是故意的重复,”他在电话采访中告诉 SciAm.com。“这就是你写综述文章时会发生的情况。”
他补充说,他因为一篇写起来很费力且没有给他带来额外声望的论文而被挑出来。“谁在乎?这是一篇综述文章,”他说。“我再也不会写另一篇了,因为这些废话。”
重复论文会持续增加吗?
Errami 和 Garner 表示,他们希望被发现的可能性会阻止潜在的模仿者。
但期刊出版商洛克菲勒大学出版社的执行董事 Mike Rossner 指出,eTBLAST 或类似的搜索方案可能无法成功阻止重新发表,因为同时提交给两家期刊的手稿在发表后才会出现在数据库中。
Nature 杂志的出版执行编辑 Maxine Clarke 说,她的出版物使用文本匹配软件将提交的论文与出版集团的许多专业期刊中的论文进行比较。她指出,他们还要求未来的作者提交预印本和提交给其他期刊的相关手稿的副本,以帮助编辑和审稿人评估其新颖性。Nature Protocols 的助理编辑 Bronwen Dekker 说,她的期刊使用 eTBLAST 扫描提交的论文,以查找摘要或引言中是否存在自我剽窃(抄袭自己过去的作品)的证据。
一些证据表明,被发现的可能性可能不会阻止肆无忌惮的人。Rossner 说,五年前,洛克菲勒大学出版社开始检查论文中是否存在操纵描绘实验数据的照片的情况,但他表示,他没有看到经过篡改的图像数量有所下降。
尽管这一发现的长期影响仍有待观察,但已经产生了一些后果。举例来说:Fleischmann 说,他认识 Simon 25 年了,并把他当作朋友,但补充说“我不知道我们现在是否还是朋友。”