在一位法国研究人员发现这些作品是计算机生成的无意义内容后,出版商斯普林格和 IEEE 正在从他们的订阅服务中删除 120 多篇论文。
在过去的两年里,法国格勒诺布尔约瑟夫·傅立叶大学的计算机科学家西里尔·拉贝编制了计算机生成的论文目录,这些论文在 2008 年至 2013 年间被发表在 30 多篇会议论文集中。其中 16 篇出现在德国海德堡的斯普林格出版的刊物上,100 多篇由位于纽约的电气和电子工程师学会 (IEEE) 出版。这两家出版商在收到拉贝的私人通知后,都表示他们正在删除这些论文。
例如,其中一篇论文是作为 2013 年在中国成都举行的国际质量、可靠性、风险、维护和安全工程会议的论文集出版的。(会议网站表示,所有手稿都经过“对优点和内容的审查”)。这篇题为“TIC:电子商务建设的方法”的论文的作者在摘要中写道,他们“将努力集中在驳斥电子表格可以做到基于知识、有同情心和紧凑”。(《自然新闻》试图联系会议组织者和论文署名作者,但没有收到回复;然而,至少一些名字是真实的人。IEEE 现在已经删除了这篇论文)。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保关于当今塑造我们世界的发现和想法的有影响力的故事的未来。
*更新:一位署名作者于 2 月 25 日回复了《自然新闻》。他说他是在 2013 年 12 月会议组织者通知他的大学时才第一次得知这篇文章的;并且他不知道为什么他被列为论文的合著者。“相关调查人员正在调查此事,”他说。
如何创建一篇胡言乱语的论文
拉贝开发了一种自动检测由名为 SCIgen 的软件编写的手稿的方法,该软件随机组合单词字符串以生成虚假的计算机科学论文。SCIgen 由马萨诸塞州剑桥的麻省理工学院 (MIT) 的研究人员于 2005 年发明,目的是证明会议会接受毫无意义的论文,并且,正如他们所说,“为了最大限度地娱乐”(请参阅“计算机会议欢迎胡言乱语的论文”)。一个相关的程序在讽刺网站 arXiv vs. snarXiv 上生成随机的物理学手稿标题。SCIgen 可以免费下载和使用,目前尚不清楚有多少人这样做,或出于什么目的。当研究人员提交胡言乱语的论文然后揭露这个把戏时,SCIgen 的输出偶尔会在会议上出现。
拉贝不知道论文提交的原因,甚至不知道作者是否知道这些论文。大多数会议在中国举行,大多数虚假论文的作者都有中国机构的附属关系。拉贝已向许多论文和相关会议中提到的编辑和作者发送了电子邮件,但收到的回复很少;一位编辑说他没有在特定的会议上担任程序主席,即使他被指名担任该职务,另一位作者声称他的论文是故意提交的以测试会议,但在后续中没有回应。《自然》没有收到一些询问的任何回复。
“我没有意识到问题的严重程度,但我知道它肯定会发生。我们偶尔会收到好心人士发来的电子邮件,告知我们 SCIgen 论文的出现地点,”杰里米·斯特里布林说,他曾在麻省理工学院时与人合著了 SCIgen,现在在加利福尼亚州帕洛阿尔托的软件公司 VMware 工作。
拉贝说:“这些论文很容易被发现。”他建立了一个 网站,用户可以在这里测试论文是否是使用 SCIgen 创建的。他的检测技术,在 2012 年发表在《科学计量学》上的一项研究中有所描述,包括搜索由 SCIgen 生成的特征词汇。在该论文发表前不久,拉贝通知了 IEEE 他发现的 85 篇虚假论文。IEEE 公司传播主管莫妮卡·斯蒂克尔说,出版商“立即采取行动删除这些论文”,并“改进了我们的流程,以防止不符合我们标准的论文在未来发表”。2013 年 12 月,拉贝通知了 IEEE 他发现的另一批明显的 SCIgen 文章。上周,这些文章也被撤下,但被删除文章的网页没有解释其缺失的原因。
斯普林格英国传播主管露丝·弗朗西斯表示,该公司已就正在下架的文章的相关问题联系了编辑,并正在尝试联系作者。她证实,相关的会议论文集经过了同行评审——这使得这些论文被接受更加令人费解。
然而,IEEE 不愿透露是否已联系了可疑 SCIgen 论文的作者或编辑,或者相关会议的提交是否应该进行同行评审。“我们继续遵循严格的管理指南来评估 IEEE 会议和出版物,”斯蒂克尔说。
虚假论文的悠久历史
拉贝对虚假研究并不陌生。2010 年 4 月,他使用 SCIgen 为一位名叫艾克·安特卡尔的虚构作者生成了 102 篇虚假论文 [请参阅pdf]。拉贝展示了将这些虚假论文添加到谷歌学术数据库是多么容易,将艾克·安特卡尔的h 指数(衡量已发表成果的指标)提高到 94——当时,这使安特卡尔成为世界上被引用次数第 21 位的科学家。去年,西班牙格拉纳达大学的研究人员补充了拉贝的工作,通过上传六篇带有长篇列表的虚假论文到他们自己之前的工作中,提高了他们在谷歌学术中的引用分数。
拉贝说,最新的发现仅仅是“在科学的核心发起的垃圾邮件战争”的一个症状,在这种战争中,研究人员感到压力,要尽快发表论文,尽可能多地发表论文。
记者和研究人员接受会议或期刊上的欺骗性论文以揭示学术质量控制的缺陷有着悠久的历史——从纽约大学物理学家艾伦·索卡尔于 1996 年在《社会文本》杂志上发表的一篇虚假论文,到美国记者约翰·博汉农在2013 年发表在《科学》上的一项诱捕行动,他在该行动中让 150 多种开放获取期刊接受了一项故意存在缺陷的研究以供发表。
拉贝强调,所有胡言乱语的计算机科学论文都出现在订阅产品中。他认为,很少有证据表明,向手稿收取出版费的开放获取出版商的同行评审一定比订阅出版商少。
拉贝补充说,使用他的工具很容易检测出这些胡言乱语的论文,就像许多出版商已经使用的抄袭检查器一样。但由于他无法自动下载订阅数据库中的所有论文,因此他无法确定他是否发现了每一篇 SCIgen 生成的论文。