科学审查之下:可重复性问题

更好的激励机制可以减少在重复实验中被证实为错误的惊人数量的研究

尼尔·韦伯

凯蒂·科克尔想知道咖啡应该是什么温度。她正在做一个心理学实验——确切地说,是重做一项实验。最初的研究结果表明,拿着温暖的东西可以使一个人表现得热情,该研究于 2008 年发表在著名的《科学》杂志上,引起了媒体的广泛报道。然而,当科克尔试图重现研究的每个步骤时,却有如此多的未知数:分发给受试者的热咖啡的温度,马克杯在他们手中冷却的速度。

科克尔是格兰谷州立大学的一位心理学家,她正在尝试少数科学家才会尝试的事情:认真地重复研究并发表结果。在她的案例中,目标是找出她在另一个实验室,使用不同组别的受试者工作时,是否会发现与《科学》杂志研究相同的效应,该研究仅由一个研究小组进行,只有 94 名参与者拿着咖啡或不同温度的治疗垫。理论上,科学本应如此运作:作为一个自我纠正的过程,研究人员在前人的发现基础上不断进步。

几十年来,某些领域的一些文献存在明显的错误,这已经是一个公开的秘密。在生物医学领域,真相在 2012 年变得清晰起来。当时,C·格伦·贝格利是制药公司安进的副总裁兼全球血液学和肿瘤学研究主管,负责根据部分来自学术界的有前景的突破来开发癌症药物。在该职位工作十年后,他想知道为什么一些研究有希望的药物靶点的项目会被中止。他查阅了公司的文件,惊人地发现,问题通常出在临床前研究上,而他的团队在投入资金和资源以其为基础开发治疗方法之前,会对临床前研究进行复核。“令我震惊的是,我发现 90% 的情况下,我们无法重复已发表的内容,”贝格利说,他现在是澳大利亚公司 BioCurate 的首席执行官。一项研究后来发现,在美国,生物医学领域临床前工作无法重复的失败每年耗费 282 亿美元。贝格利甚至派安进的科学家去一些实验室观察他们尝试重复自己的结果。他们也失败了。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事能够继续存在。


与此同时,危机在心理学领域变得显而易见。作为弗吉尼亚大学心理学家布莱恩·诺塞克的可重复性项目:心理学的一部分,近 300 名科学家自愿花费时间重复该领域 100 篇论文中的实验。他们在 2015 年宣布,只有 36% 的重复实验显示出与原始研究结果一致的显著结果。

图片来源:尼尔·韦伯

尽管具有里程碑意义的可重复性研究主要集中在生物医学和心理学领域,但这个问题并不局限于这些领域。洛雷娜·A·巴尔巴是乔治·华盛顿大学的工程师,从事计算流体动力学研究。她花了整整三年时间与一名学生合作,重建了她自己实验室的一个复杂模拟,模拟飞蛇(从树枝上跳下,滑翔在空中)在翱翔时如何摆动。新的结果是一致的,但她了解到,梳理别人的代码来拼凑他们所做的事情可能是一场噩梦。她基本上遇到了科克尔遇到的热咖啡杯子的同样问题。科学家专注于发表结果,而不是他们如何得出结果的每一个琐碎的步骤。“只是没有很多书面记录,”科克尔说。不过,她很幸运:最初的咖啡研究的第一作者“非常愿意与我们合作”。她还与一位化学家合作,使测试装置改变温度的速度标准化。“我发现这比我做过的一些原始研究更具挑战性,”她说。

长期以来根深蒂固的科学习惯,例如害怕被抢先而回避分享技术,往往与可重复性的目标背道而驰。巴尔巴自己的领域诞生于新墨西哥州洛斯阿拉莫斯曼哈顿计划的秘密之中,当时设计第一批核武器的研究人员使用早期计算机来计算空气和能量爆炸如何从爆炸的炸弹中扩散开来。当然,曼哈顿计划为大部分硬科学提供了动力。当时的科学家积极试图阻止外人重复他们的工作。

此外,期刊和终身教职委员会通常更看重新颖、引人注目的结果,而不是在现有文献基础上精心构建的零星进展。“我的训练是关于试图找到意想不到的效果,”旧金山州立大学的社会和人格心理学家夏洛特·泰特说。她开玩笑说,她所在领域的成员“带着我们必须登上《每日秀》节目的模式四处奔走。”这种态度不仅仅是虚荣心:引人注目的结果通常是你获得工作的方式。那些默默地核实他人工作或花费额外时间努力确保他们的代码易于其他研究人员理解的人,不会名声大噪——甚至不会在成堆的简历中脱颖而出。

许多人强调,更好的培训——关于如何撰写论文中万无一失的“方法”部分,或者仔细记录代码以便其他人可以阅读——可以在帮助解决危机中发挥作用。巴尔巴就属于这一阵营,她指出,在工作中使用代码的人最好参加软件礼仪课程,以便他们可以将良好记录的代码与他们的结果一起呈现。她还使用一种称为版本控制的技术,该技术记录对文件所做的任何更改,以使她团队代码的演变尽可能清晰易读。该工具是软件开发中的标准工具,但令巴尔巴困惑的是,在科学领域却并非如此。“在进行实验和记录实验之间存在着根本的矛盾,”查尔斯·弗拉基亚说,他正试图通过他的公司 BioBright 增加生物医学实验日志的细节和深度。他的工具之一 DarwinSync 记录来自每种仪器的可能数据,包括看似不重要的东西,例如计算机是插着电源还是使用电池供电,或者房间内的环境光量,以防这些细节后来具有启发意义。在科克尔的重复尝试案例中,如果原始研究更好地评估了马克杯的温度,那将为她提供更多信息以便稍后重新进行试验。

但是,耗时的解决方案和昂贵的设备是不够的。“做正确的事情没有奖励,”巴尔巴说。诺塞克说,诀窍在于调整激励机制,以确保“对科学家有利的事情对科学也有利”。例如,资助研究的机构可以选择仅资助包含使其工作透明化计划的项目。2016 年,美国国立卫生研究院推出了新的申请说明和审查问题,以鼓励寻求资助的科学家提高其工作的可重复性。美国国立卫生研究院现在要求提供更多关于研究如何在前人工作基础上进行的信息,以及可能影响调查的变量列表,例如大鼠受试者的性别(以前被忽视的因素,导致许多研究将雄性大鼠中发现的现象描述为普遍现象)。

资助者可以在前期提出的所有问题,期刊和审稿人也可以提出。对于诺塞克来说,一个有希望的解决方案在于所谓的注册报告,即研究的预先注册,科学家在实际进行研究之前提交研究分析和设计计划以供发表。然后,同行评审员评估方法——方法是否合理,是否建立在过去的研究结果之上——期刊承诺发表结果,无论结果如何。论文的奖励来自于经过深思熟虑的实验,而不是引人注目的结果。有些人怀疑这种改变是否只会产生枯燥的科学。诺塞克认为情况并非如此。他目前正在完成两项调查,以检查已发表的早期注册报告的影响和质量;初步结果表明,它们的引用频率与传统论文一样高。不过,他指出,过度依赖预先注册的研究可能会鼓励更安全的研究,从而可能过度纠正问题。他认为该模型与传统的以结果为中心的模型并存,后者对偶然发现,“事物的意外到来”持友好态度,他说。

一个更难解决的问题是研究人员为谋生而承受的产生突破的压力。诺塞克指出,需要发生更大的文化转变。目前,仅仅小心翼翼地沿着有趣的道路前进,结果却发现是空无一人,通过照亮死胡同来扩大知识地图,这并不一定足够。我们生活的世界里,事实核查员不会成名。

然而,可重复性问题并不一定意味着科学从根本上是崩溃的。“进步取决于失败,”印第安纳大学伯明顿分校的心理学家理查德·M·希夫林说,他对人们对“危机”的关注持怀疑态度。他认为,对不可重复性的关注可能会掩盖科学给我们带来的进步。那些确实认为危机是真实的人并不总是不同意他的评估。贝格利指出,这个问题有实际后果:如此多的发现经不起仔细审查,以至于药物的上市速度比在一个更清洁的系统下更慢,成本也更高。“我们花了很多时间追逐无用的东西,”他说。

咖啡研究中的效应最终被证明是其中之一。科克尔使用热垫和冷垫完成的工作最终表明,没有证据表明拿着温暖的东西可以让你表现得更热情。尽管最初的工作发表在顶级期刊上,但重复研究工作可以在一个相对较小的期刊上找到。这是一项不同类型的突破,但受到的关注较少。

香农·帕勒斯是一位自由记者,也是 Wirecutter 的常驻记者,Wirecutter 是《纽约时报》公司的一部分。她的作品曾发表在 Slate、《大众科学》、《大西洋月刊》、《发现》、《奥杜邦》、《石英》、《史密森尼》和撤稿观察网。

更多作者香农·帕勒斯的文章
大众科学 Magazine Vol 319 Issue 4本文最初以“使研究可重复”为题发表于《大众科学》杂志 第 319 卷第 4 期(),第 56 页
doi:10.1038/scientificamerican1018-56
© . All rights reserved.