科学家们是否做了过多的研究?

这听起来几乎很荒谬,但这可能是所谓的“可重复性危机”背后的一个因素

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点


提出这个问题听起来几乎是异端邪说:科学研究是否过多?

对——填入您最喜欢的主题——进行更多研究的需求是那些不证自明的真理之一。 寻求政府资助、基金会拨款和捐款以治疗疾病的多元化医疗界当然对此表示赞同。 关于气候变化的政治辩论引发了激烈的口水战,但双方都认同需要更多研究的观点。 大学和非营利研究机构大声疾呼要求更多研究资金。 与这种巨大需求背道而驰的是人们感觉研究资金正在枯竭:由于激烈的财政斗争和国会的预算僵局,美国国立卫生研究院和其他政府研究机构的资金停滞不前。

那么,人们怎么可能认为研究过多呢?


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


对当前研究结果的审视具有启发意义。 2015年8月,布莱恩·诺塞克和他在他共同创立的开放科学中心同事,分享了一项对2008年发表的100项不同研究的考察,所有研究都属于心理学领域。 除三项研究外,所有研究都报告了具有统计学意义的发现。 诺塞克和他的同事着手重复这些研究,咨询了原始作者并使用了相同的方法。 只有36%的原始研究得到了证实,而且那些得到证实的研究所重复出的效应量比原始研究中的效应量要小。 约翰·约阿尼迪斯曾广泛撰写关于科学发现经重新审查后消失的问题,他早在2005年的论文《为什么大多数已发表的研究结果是错误的》中就引起了科学界对这个问题的关注。

这种可重复性问题的核心是用于验证研究结果的统计推断方法——特别是“统计显著性”的概念。 统计学上显著的结果是指与您可能从随机机会中预期的结果有很大差异的结果。 这听起来很合理,如果有点模糊,但当这个概念变得更具体时,它就会变成一个“统计黑匣子”,超出了大多数研究人员的理解或兴趣。 大多数人只对他们的数据和他们的发现感兴趣,而通过统计显著性检验仅仅是一个必要的程序步骤,就像在边境盖护照章一样。

几乎就像那样。 如果您是一位旅客,在一个入境点被拒绝入境,然后尝试从另一个入境点入境,移民局会记住您的第一次尝试,您可能会再次被拒绝。 但研究的守门人却不是这样。 如果您的初步发现没有通过统计显著性的门槛,您可以有其他的机会。 假设您正在研究维生素 X 对健康的影响,并且您决定使用大型流行病学队列数据集之一(例如,1948年开始的针对马萨诸塞州弗雷明翰居民的“弗雷明翰研究”)。

您可能会失望地发现,数据中维生素 X 与健康之间没有关系。 但是您可以回头只看女性;或男性;或50岁以上的男性。 谁知道您要查看多少个亚组才能找到关系? 当您在大型数据集中反复寻找有趣的模式时(除非您正确应用所谓的多次检验程序来提高统计显著性的门槛),统计推断提供的防止被“偶然性愚弄”的保护就会消失。

考虑以下情景——您将如何解读它们?

情景 1. 有人声称能够抛硬币并“用意志力”使其每次都正面朝上。 您要求此人抛一枚25美分硬币10次,结果每次都是正面朝上。

情景 2:在洋基队比赛中,播音员要求在场的所有 20,000 名球迷抛硬币 10 次,并报告他们是否全部正面朝上。 301 区 P 排 12 座位的球迷向一位引导员宣布,他全部都是正面朝上。

在第一个情景中,您做了一次“测试”,结果非常出色,您对这些结果感到非常惊讶,以至于认为这个人具有非凡的能力。 在第二个情景中,您进行了 20,000 次测试——换句话说,您创造了 20,000 次发生不寻常事情的机会。 因此,一些球迷连续获得 10 次正面朝上一点也不令人惊讶(事实上,这几乎是必然的)。

美国统计协会在 10 月中旬举办了一次关于统计推断的研讨会。 会上,约翰·约阿尼迪斯和史蒂夫·古德曼阐述了统计专业面临的挑战,因为其研究的“良好管家认可印章”的价值正在稳步下降。 约阿尼迪斯说,“我们正淹没在统计显著性的海洋中”……并且……“p 值[一种计算显著性的标准方法]已成为一种令人厌烦的麻烦。” 这次研讨会是去年美国统计协会关于 p 值的声明的后续行动,与会者讨论了解决该问题的可能技术方案——例如,从 p 值切换到效应量周围的置信区间。

但问题要 fundamental 得多。 太多研究人员在职业压力下为了产生可发表的成果,正在进行过多的数据追逐和过度的分析,以追求显著的结果。 2011 年 PubMed 收录的科学论文数量超过 120 万篇——自 1980 年以来增加了三倍。 这与等待被发现的突破性知识和创新数量成比例吗?

布鲁斯·阿尔伯茨等人。 在他们讨论医学研究中系统性缺陷的文章 (pdf) 中提到了这个问题。 正如他们所说:“……大多数成功的生物医学科学家培养的科学家远远超过取代他们自己所需的数量; 总的来说,培训渠道产生的科学家比学术界、政府和私营部门的相关职位所能吸收的还要多。”

随着更多论文的发表,更多论文被撤回。 这个问题在中国尤其严重。 期刊《肿瘤生物学》在发现来自中国的 107 篇已发表论文的同行评审过程是伪造的后,于今年早些时候撤回了这些论文。 今年发表在《科学与工程伦理学》上的一项针对中国生物医学研究人员的调查估计,中国 40% 的研究受到不端行为的影响。

史蒂夫·古德曼在研讨会上倾向于赞同,研究中的可重复性问题是由寻求发表的研究人员数量驱动的,并且用其他标准取代 p 值会带来暂时的改善,但其他发表标准也可能同样被博弈。

考虑将 p 值阈值从 0.05 降低到 0.005 的提议。 这会有帮助吗? 这可能会使情况更糟:将统计显著性门槛提高 10 倍确实会对研究结果的发表构成更大的障碍。 但是,设计合理、诚实进行和报告且具有可重复性的良好研究将完全受阻。 不健全或不诚实的研究,如果依赖于“p 值操控”,则只需要更广泛地搜索以找到符合统计显著性检验的神奇结果。

这是在夸大问题吗? 也许是过于简化了。

可重复性问题在探索现有数据以寻找有趣(即可发表)的东西的研究中尤为突出,而不是预先陈述假设,然后收集数据来检验假设的实验。 后者如果诚实地进行,则具有限制虚假结果的内在机制。 而核心在于动机问题——研究是由好奇心和回答紧迫问题的需要驱动的吗? 还是由研究人员的职业考虑驱动的?

加利特·什穆埃利是一位著名的数据分析作家,她广泛发表了关于使用统计数据来解释与预测之间的区别的文章,她对研究饱和的概念提出异议。 她认为,当今的技术格局将需要在管理、社会科学和人文学科领域进行更多高质量和相关的研究

然而,研究人员的供应(主要由政府资助和高等教育部门的规模扩大驱动)与良好、相关的研究成果的供应之间仍然没有自然的联系。 正是大量且不断增长的努力争取可发表成果的研究人员导致了结论的夸大其词和无法重复。 统计专业可以为发表提供一个更全面、更不易“被博弈”的门槛,但这并不能减轻博弈系统的压力。

Peter Bruce founded The Institute for Statistics Education at Statistics.com in 2002. He is a co-author of "Data Mining for Business Analytics" (Wiley), and "Practical Statistics for Data Scientists: 50 Essential Concepts" (O'Reilly,2017), the author of "Introductory Statistics and Analytics: A Resampling Perspective" (Wiley), and the co-developer of Resampling Stats software.

More by Peter Bruce
© . All rights reserved.