大型国际项目引发对心理学研究有效性的质疑

当100项过去的研究被重复时，只有39%产生了相同的结果

来自五大洲的调查人员报告称，在一项今天发表在有影响力的期刊《科学》杂志上的研究中，他们只能重复出认知和社会心理学领域先前发表的100项研究中约40%的结果。“可重复性项目：心理学”这项大规模合作，可以作为检验其他领域研究可重复性的模型，而一项类似的审查癌症生物学研究的工作已经在进行中。

《科学》杂志资深编辑吉尔伯特·钦说，实验“必须是可重复的”，这对于科学方法至关重要。“也就是说，除了最初的实验者之外的其他人，应该能够通过遵循相同的实验协议获得相同的发现。”一项研究越容易被重复，其结果就越值得信赖。但弗吉尼亚大学心理学教授、通讯作者布莱恩·诺塞克说，“人们越来越担心可重复性可能低于预期或期望。”

为了解决这个问题，来自多个学科的科学家在弗吉尼亚州夏洛茨维尔建立了开放科学中心 (COS)。“可重复性项目：心理学”是他们的第一个研究倡议，于2011年开始招募志愿者。他们要求研究团队（共有270名合作作者）从一组研究中选择——所有研究都反映了基础科学，不需要专门的样本或设备——这些研究发表在2008年的三份受人尊敬的心理学期刊之一上：《心理科学》、《人格与社会心理学杂志》和《实验心理学杂志：学习、记忆与认知》。

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。

总的来说，在重复研究中证据较弱。然而，最初的证据越有力，包括更大的效应量，结果就越有可能被重复。

钦在讨论调查结果的电话会议上说，尽管结果“有点令人失望”，但他强调，这并不一定说明所检验的理论甚至得出的结论的有效性。科学过程包括“对理论和实验的持续质疑和评估”。即使是不可重复的实验，也有助于我们理解科学，因为它有助于排除其他解释。相反，这项研究表明，“对于许多最初作为支持这些理论的经验证据提供的实验结果，我们应该减少信心。”

心理科学协会执行主任兼COS董事会成员艾伦·克劳特在同一次电话会议上提出了类似的观点：研究参与者、时间、地点、研究团队的技能和许多其他因素的不可避免的变异总是会影响结果。“唯一能够100%重复的发现，”克劳特指出，“很可能是陈腐乏味的。”

各团队收到了设定的协议和分析计划，并与原始研究作者协商，以便尽可能地与他们的研究设计相匹配。实验结束后，项目协调员汇总了数据并独立审查了分析结果。

研究作者使用五个标准来衡量重复研究的成功：统计显著性和p值——评估在一定预定可能性（通常为95%，或p值为0.05）内发生事件的概率；效应量，它表明了所检验现象的强度；重复研究团队的主观判断；以及对所有100个实验的效应量进行元分析。他们还考虑了可能影响结果的各种其他特征——其中包括样本量、所谓的“效应惊奇性”和原始团队的专业知识。

在最终分析中，他们发现，尽管97%的原始研究报告了统计上显著的结果（获得p值0.05或更低），但只有36%的重复研究做到了这一点。然而，使用p值的一个缺点是，它将0.05视为显著和不显著结果之间的“明显界限”。为了解决这个问题，研究人员还检查了效应量。当以此方式衡量时，重复实验的结果略好一些。总共有47%的重复研究显示出的效应与原始结果在95%的置信度下相符，尽管通常效应的强度有所降低。主观上，39%的研究团队认为他们的重复研究是成功的。

有趣的是，作者发现某些类型的研究比其他类型的研究更容易被重复。在项目中包含的57项社会心理学研究中，只有约25%成功地被重复，而43项认知心理学研究中则有50%被重复。社会心理学研究的效应量也较弱。此外，原始实验的设计越简单，其结果就越可靠。研究人员还发现，“令人惊讶”的效应不太容易重复。

在这项研究中，作者排除了需要高级神经影像的研究，可能也排除了那些可能更容易被重复的精确实验。但作者指出，可重复性问题在所有科学领域都普遍存在，部分原因可能是发表偏倚。“发表是科学的通行货币，”诺塞克说。“为了成功，我的合作者和我需要定期在最负盛名的期刊上发表文章。”但他补充说，学术期刊通常优先考虑“新颖、积极和整洁的结果”。未能发现显著结果的研究很少见天日。此外，对先前发表的实验的重复研究——这对于推动科学进步至关重要——不太可能通过同行评审。

为了改变这种状况，《科学》杂志主编玛西娅·麦克纳特指出，她的杂志和其他杂志最近发布了指导方针，鼓励在其选择和评审过程中提高透明度和开放性。她补充说，“作者和期刊编辑应该警惕发表边际显著的结果，因为这些结果不太可能被重复。”诺塞克总结道，如果他们忽视了这一事实，“那么发表的文献可能会比现实更美好。”