2014年4月19日

现代同行评审的诞生

同行评审于 1731 年由爱丁堡皇家学会引入学术出版，该学会出版了一系列经过同行评审的医学文章。

本文发表在《大众科学》的前博客网络中，反映作者的观点，不一定代表《大众科学》的观点

同行评审于 1731 年由爱丁堡皇家学会引入学术出版，该学会出版了一系列经过同行评审的医学文章。尽管有此早期开端，但在许多科学期刊出版物中，直到二战后，编辑才对是否发表文章有最终决定权。“科学和 美国医学会杂志 直到 1940 年之后才使用外部审稿人，”(Spier, 2002)。柳叶刀 直到 1976 年才实施同行评审（Benos 等，2006）。战争结束后，进入五六十年代，文章的专业化程度提高，期刊版面的竞争也随之加剧。技术进步（复印！）使得向审稿人分发文章的额外副本变得更加容易。如今，同行评审是评估一切事物的“黄金标准”，从学术出版到资助到终身教职决定（在本文中我将重点关注学术出版）。它已被“提升为‘原则’——一个非常分散的领域的统一原则”（Biagioli，2002）。

同行评审需要时间、精力和努力，并且会大大延迟出版。它是学术出版的瓶颈之一。如今，我们可以非常快速地分发，但是每个领域中的专家人数有限，他们的时间被学术生活中的其他任务占用。JASIST 的编辑 Blaise Cronin 估计，JASIST 每年需要大约 1,000 次同行评审（当然，一个人可以多次评审）才能处理 400 篇文章，并且 JASIST 接触约 3,000 名研究人员才能找到 1,000 名同行评审员。

单盲还是双盲？

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您将有助于确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。

传统的同行评审通常是单盲或双盲的。单盲评审是最常见的，审稿人知道作者的身份，但作者不知道审稿人的身份。双盲同行评审是指作者和审稿人都不知晓对方的身份。作者倾向于认为双盲评审原则上比单盲评审更好、更少偏见，但他们也怀疑真正的盲法是否可能（参见 Lee 等人，2013 年的评论）。一项针对 590 家化学期刊的编辑、主编和编辑委员会成员的调查发现，97% 的期刊不提供双盲同行评审。大多数受访者认为双盲没有必要，因为内容和参考文献无法真正隐藏。他们认为双盲会使欺诈行为的检测更加困难，并且认为该系统令人满意（Brown，2007）。

举个例子：在我新的工作场所，我们每年都会举办一次高等教育电子学习会议。当我们收到提案时，我的工作之一是将其匿名化——删除他们的名字，并确保无论作者在哪里写了他们所在机构的名称，都将其替换为简单的“该机构”。不幸的是，以色列的电子学习社区太小了，这个过程几乎毫无用处，因为每个人都认识每个人，每个人都知道哪个机构在做什么。Justice 等人（1998 年）的一项研究得出了类似的结论。他们在将稿件发送给五家知名医学期刊进行评审之前，掩盖了作者的身份，但大约 30% 的审稿人仍然能够识别出作者（可能是因为文本中的自我引用没有被删除）。在小型研究领域，这个数字可能会更高。

同行评审、欺诈和错误

每当有已发表文章中的欺诈案例或重大缺陷被曝光时，人们自然会想知道“同行审稿人在哪里？” 例如，研究人员 Jan Hendrick Schon 在四年内（1998-2002 年）发表了一百多篇文章，但审稿人未能发现他文章中的 16 起不端行为案例。有时，这仅仅是偶然。 Retraction Watch 博客最近报道，在一位同事指出他们文章中的（诚实的）错误后，一群作者撤回了《物理评论快报》上的一篇论文。如果这位同事是他们发表前的同行评审员，那么这篇文章一开始就不会被发表。

在一项研究中，在已接受发表的一篇文章中输入了八个弱点，并将其发送给 JAMA 审稿人（200 名受访者），他们平均每位审稿人发现的弱点不到两个。 16% 的人没有发现任何弱点，只有 10% 的人发现了四个以上的弱点（Godlee 等人，1998 年）。Callaham 等人（1998 年）向 Annals of Emergency Medicine 的编辑和所有在该研究之前至少评审过三篇稿件的期刊同行评审员发送了一份包含 23 个故意缺陷的虚假稿件。平均而言，审稿人发现了稿件中十个主要缺陷中的 3.4 个和 13 个次要缺陷中的 3.1 个。同行评审是科学的“守门人”，但他们的把关远非完美。

同行评审的内部可靠性

同行评审的审稿人之间的可靠性水平往往较低 (0.2-0.4)。至少从统计角度来看，这使得它们非常不可靠。然而，这可能不是一件坏事：“事实上，太多的一致性表明审查过程运作不佳，审稿人的选择没有充分的多样性，并且有些审稿人是多余的”（Bailar，1991 年）。可能是审稿人对被审文章的不同质量给予了不同的权重，或者文章的主题尚未达成科学共识（例如：替代计量学，评估的有用工具还是垃圾？）。

我很清楚这篇文章仅涵盖了关于同行评审的讨论和争论的一小部分（请注意这篇文章的标题是“传统同行评审简介”），并希望在未来再次讨论该主题。

Bailar, J. (2011). 同行评审中可靠性、公正性、客观性和其他不适当的目标。行为和脑科学, 14 (01), 137-138 DOI: 10.1017/S0140525X00065705

Biagioli, M. (2002)。从书籍审查到学术同行评审。涌现：媒体与复合文化研究杂志, 12 (1), 11-45 DOI: 10.1080/1045722022000003435

Benos DJ, Bashari E, Chaves JM, Gaggar A, Kapoor N, LaFrance M, Mans R, Mayhew D, McGowan S, Polter A, Qadri Y, Sarfare S, Schultz K, Splittgerber R, Stephenson J, Tower C, Walton RG, & Zotov A (2007)。同行评审的兴衰。生理学教育进展, 31 (2), 145-52 PMID: 17562902

Bornman, L. (2008)。科学同行评审：同行分析

从社会学角度看评审过程

科学理论人类建筑：自我知识社会学杂志, 6 (2)

Brown, R. (2006)。双重匿名和同行评审过程。科学世界期刊, 6, 1274-1277 DOI: 10.1100/tsw.2006.228

Callaham ML, Baxt WG, Waeckerle JF, & Wears RL (1998)。编辑对稿件同行评审的主观质量评分的可靠性。 JAMA：美国医学会杂志, 280 (3), 229-31 PMID: 9676664

Godlee, F., Gale, C., & Martyn, C. (1998)。盲化审稿人并要求他们签署报告对同行评审质量的影响。 JAMA, 280 (3) DOI: 10.1001/jama.280.3.237

Lee, C. J.,, Sugimoto, C. R.,, Zhang, G.,, & Cronin, B. (2013)。同行评审中的偏见。 JASIST, 64 (1), 2-17

Spier R (2002)。同行评审过程的历史。生物技术趋势, 20 (8), 357-8 PMID: 12127284