1925年,英国遗传学家和统计学家罗纳德·费希尔出版了一本名为《研究工作者的统计方法》的书。书名听起来并不像“畅销书”,但这本书非常成功,并确立了费希尔作为现代统计学之父的地位。在书中,他探讨了研究人员如何将统计检验应用于数值数据,以得出关于他们发现的结论,并确定其是否值得进一步研究的问题。他引用了一种统计检验,该检验总结了数据与提出的模型的兼容性,并产生一个 p 值。费希尔建议,研究人员可以将 0.05 的 p 值视为一个方便的指南:“将这个点作为判断偏差是否应被认为是显著的界限是很方便的。”他建议,追求 p 值低于该阈值的结果,而不要在高于该阈值的结果上花费时间。因此,诞生了 p 值小于 0.05 等同于所谓的统计显著性的概念——“显著”结果的数学定义。
近一个世纪后,在许多科学研究领域,小于 0.05 的 p 值被认为是确定实验价值的黄金标准。它为学术界的基本要素——资金和出版——打开了大门,因此也支撑着大多数已发表的科学结论。然而,即使是费希尔也明白,统计显著性的概念以及支撑它的 p 值具有相当大的局限性。大多数局限性在几十年前就已被认识到。“过度依赖显著性检验,”心理学家保罗·米尔在 1978 年写道,“[是]一种糟糕的科学研究方法。”P 值经常被误解,统计显著性与实际显著性并非同一回事。此外,任何研究中所需的方法论决策都使实验者有可能有意或无意地向上或向下调整 p 值。“正如常说的那样,你可以用统计数据证明任何事情,”加州大学洛杉矶分校的荣誉退休教授、统计学家和流行病学家桑德·格林兰说,他是改革的主要倡导者之一。仅仅依靠达到统计显著性或指出其不存在的研究,经常会导致不准确的结论——它们表明虚假的事物是真实的,而真实的事物是虚假的。费希尔退休到澳大利亚后,有人问他在漫长的职业生涯中是否有任何遗憾。据说他怒斥道:“永远不该提 0.05。”
在过去的十年中,关于统计显著性的争论异常激烈地爆发了。一篇出版物称统计分析的脆弱基础为“科学界最肮脏的秘密”。另一篇则指出显著性检验中存在“无数深层缺陷”。实验经济学、生物医学研究,尤其是心理学,都陷入了一场有争议的可重复性危机,这场危机揭示了相当一部分已发表的发现是不可重复的。一个更臭名昭著的例子是权力姿势的概念,即自信的肢体语言不仅会改变你的态度,还会改变你的荷尔蒙,这个说法是基于一篇论文,而该论文后来被其作者之一否定了。一篇关于气候变化经济学的论文(由一位怀疑论者撰写)“最终出现的错误更正几乎与数据点一样多——开玩笑的!——但这些错误更正都不足以让他改变自己的结论,”哥伦比亚大学的统计学家安德鲁·格尔曼在他的博客上写道,他在博客上经常批评研究人员的工作粗制滥造,并且不愿承认他们研究中的问题。“嘿,做纯粹的理论工作没问题,但那就没必要用数据来分散我们的注意力了,”格尔曼写道。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
统计显著性的概念虽然不是唯一因素,但已成为问题中显而易见的一部分。在过去的三年中,数百名研究人员紧急呼吁改革,在著名期刊上撰写或认可了关于重新定义统计显著性或完全放弃统计显著性的论文。美国统计协会 (ASA) 在 2016 年就此问题发表了一份强有力的、不同寻常的声明,主张“走向超越 p < 0.05 的世界”。ASA 的执行董事罗纳德·瓦瑟斯坦这样描述:“统计显著性应该像 Tinder 上的右滑。它只表明了一定程度的兴趣。但不幸的是,统计显著性并没有变成这样。人们说,‘我已经得到 0.05,我没事了。’科学就此停止了。”
问题是是否会有任何改变。“没有什么新鲜事。这需要让我们清醒地认识到,也许这次会和以往每次都一样,”南加州大学的行为经济学家丹尼尔·本杰明说,他也是改革的倡导者之一。尽管他们对补救措施存在分歧,但令人震惊的是,有多少研究人员确实同意,正如经济学家斯蒂芬·齐利亚克所写的那样,“当前统计显著性检验、解释和报告的文化必须结束。”
.png?w=900)
致谢:阿曼达·蒙塔内斯(图表)和希瑟·克劳斯
世界的本来面目
科学的目标是描述自然界的真相。科学家使用统计模型来推断真相——例如,确定一种治疗方法是否比另一种更有效,或者一个群体是否与另一个群体不同。每个统计模型都依赖于一组关于如何收集和分析数据以及研究人员如何选择呈现其结果的假设。
这些结果几乎总是以一种称为零假设显著性检验的统计方法为中心,该方法会产生一个 p 值。这种检验并不直接处理真相;而是间接地瞥视它。这是因为显著性检验旨在仅指示一项研究路线是否值得进一步追求。“当我们进行实验时,我们想知道的是我们的假设为真的可能性有多大,”本杰明说。“但 [显著性检验] 回答了一个复杂的替代问题,即,如果我的假设是错误的,我的数据有多不可能出现?”
有时这很有效。寻找希格斯玻色子(物理学家在 20 世纪 60 年代首次提出的粒子)就是一个极端但有用的例子。零假设是希格斯玻色子不存在;备择假设是它必须存在。欧洲核子研究中心大型强子对撞机的物理学家团队进行了多次实验,并获得了相当于 p 值的极小值,这意味着如果希格斯玻色子不存在,他们的结果发生的可能性为 350 万分之一。这使得零假设站不住脚。然后他们再次检查以确保结果不是由错误引起的。“要确信这一结果的科学重要性以及诺贝尔奖的获得,唯一的方法就是报告 [他们] 经历了重重考验,以确保 [没有] 潜在的问题可能产生如此小的数值,”格林兰说。“如此小的数值表明,没有希格斯玻色子的标准模型 [不可能正确]。它在这个层面上尖叫。”
但物理学允许达到其他领域无法达到的精确度。当你在心理学中测试人时,你永远无法达到三百万分之一的几率。p 值为 0.05 时,在多次测试中重复拒绝正确假设的几率为 20 分之一。(它并不像人们通常认为的那样,表明任何单次测试的错误机会为 5%。)这就是为什么统计学家很久以前就添加了“置信区间”,作为提供科学家做出的估计中的误差或不确定性程度的一种方式。置信区间在数学上与 p 值相关。P 值介于 0 到 1 之间。如果你从 1 中减去 0.05,你得到 0.95,即 95%,这是传统的置信区间。但置信区间只是一种有用的方法,可以总结许多效应大小的假设检验结果。“它们没有任何东西应该激发任何信心,”格林兰说。然而,随着时间的推移,p 值和置信区间都站稳了脚跟,提供了确定性的错觉。
P 值本身不一定是问题所在。当在上下文中考虑时,它们是一种有用的工具。期刊编辑、科学资助者和监管机构声称他们就是这样做的。令人担忧的是,统计显著性的重要性可能被夸大或过分强调,这在使用小样本时尤其容易做到。这就是导致当前可重复性危机的原因。2015 年,开放科学中心联合创始人布莱恩·诺塞克带头努力重复 100 篇著名的社会心理学论文,结果发现只有 36.1% 的论文可以明确地重复。2018 年,社会科学重复项目报告了对 2010 年至 2015 年间在《自然》和《科学》杂志上发表的社会科学领域 21 项实验研究的直接重复。他们发现,在 13 项研究(62%)中,重复研究的效果与原始研究的方向相同,并且重复研究的效应大小平均约为原始效应大小的一半。
遗传学在 21 世纪初至中期也经历了一场可重复性危机。经过多次辩论,该领域统计显著性的阈值发生了巨大变化。“当你发现与某些疾病或其他表型相关的遗传变异的新发现时,统计显著性的标准是 5 × 10−8,这基本上是 0.05 除以一百万,”也曾在遗传学领域工作的本杰明说。“当前一代人类遗传学研究被认为是非常可靠的。”
生物医学研究的情况并非如此,生物医学研究的风险倾向于假阴性,研究人员在存在效应时报告无统计显著性。证据的缺失不是缺失的证据,正如某人手上没有结婚戒指并不能证明该人未婚,只能证明该人没有戴戒指。当公司责任和消费者安全受到威胁时,此类案件有时会最终诉诸法庭。
模糊的明线
科学究竟陷入了多大的麻烦?许多学科的科学家之间普遍认为,误解和过分强调 p 值和统计显著性是真实存在的问题,尽管有些人对其严重程度的诊断比其他人温和。“我持长期观点,”康涅狄格大学的社会心理学家布莱尔·T·约翰逊说。“科学经常这样做。钟摆会在极端之间摆动,你必须忍受这一点。”他说,这一轮的好处是,它提醒人们对推论保持谦虚。“如果我们学者不谦虚,我们就不会前进。”
然而,为了真正前进,科学家必须就解决方案达成一致。这几乎与统计实践本身一样困难。“人们担心,取消长期以来建立的能够宣布事物具有或不具有统计显著性的做法,会给这个过程引入某种程度的无政府状态,”瓦瑟斯坦说。尽管如此,建议仍然很多。它们包括统计方法的改变、用于描述这些方法的语言的改变以及统计分析使用方式的改变。最重要的想法已在一系列论文中提出,这些论文始于 2016 年的 ASA 声明,其中二十多位统计学家就几项改革原则达成一致。随后是该协会期刊的特刊,其中收录了 45 篇关于如何超越统计显著性的论文。
2018 年,由 72 位科学家组成的小组在《自然-人类行为》杂志上发表了一篇题为“重新定义统计显著性”的评论,赞同将新发现声明的统计显著性阈值从 0.05 调整为 0.005。(0.05 和 0.005 之间的结果将被称为“暗示性的”。)该论文的主要作者本杰明认为,这是一个不完美的短期解决方案,但可以立即实施。“我担心的是,如果我们不立即采取行动,我们将失去进行更大规模变革的势头,而这些变革将真正改善现状,我们最终将花费所有时间争论理想的解决方案。与此同时,将会造成更多损害。”换句话说,不要让完美成为优秀的敌人。
其他人则表示,重新定义统计显著性根本无济于事,因为真正的问题是阈值本身的存在。今年 3 月,加州大学洛杉矶分校的格林兰、巴塞尔大学的动物学家瓦伦丁·阿姆林和西北大学的统计学家兼营销专家布莱克利·麦克沙恩在《自然》杂志上发表了一篇评论,主张放弃统计显著性的概念。他们建议将 p 值用作其他证据中的连续变量,并将置信区间重新命名为“兼容性区间”,以反映它们实际发出的信号:与数据的兼容性,而不是对结果的信心。他们在 Twitter 上征集了对其想法的认可。包括本杰明在内的八百名科学家签署了该倡议。
显然,有更好——或者至少更直接——的统计方法可用。格尔曼经常批评其他人的统计方法,但他在自己的工作中根本不使用零假设显著性检验。他更喜欢贝叶斯方法,这是一种更直接的统计方法,其中一个人采用初始信念,添加新证据并更新信念。格林兰正在推广使用惊奇度,这是一种数学量,可以调整 p 值以产生信息位(如计算机位)。0.05 的 p 值仅为反对零假设的 4.3 位信息。“这相当于如果有人抛硬币,连续看到四次正面,”格林兰说。“这能证明硬币抛掷是公平的观点吗?不能。你会一直看到这种情况发生。这就是为什么 0.05 如此薄弱的标准。”他认为,如果研究人员必须在每个 p 值旁边都标上惊奇度,他们就会被要求达到更高的标准。强调效应大小(它说明了发现的差异的量级)也会有所帮助。
改进对科学家和公众的统计教育可以从使统计语言更易于理解开始。早在费希尔接受“显著性”概念时,这个词的份量就比较轻。“它的意思是‘表示’,但不是‘重要’,”格林兰说。而术语“置信区间”倾向于灌输不应有的、嗯,信心,这并不奇怪。
拥抱不确定性
统计显著性满足了人类对确定性的需求。“最初的原罪是人们在不适当的时候想要确定性,”格尔曼说。我们或许已经到了可以安坐于不确定性的不适之中的时候。如果我们能做到这一点,科学文献将会看起来不同。瓦瑟斯坦说,关于一项重要发现的报告“应该是一段话,而不是一句话”。它不应该基于单一研究。最终,一个成功的理论是能够经受住数十年反复审查的理论。
微小的变化正在科学界的权力机构中发生。“我们同意 p 值有时被过度使用或误解,”《新英格兰医学杂志》发言人詹妮弗·蔡斯说。“如果 p < 0.05 就得出结论认为治疗对结果有效,而如果 p > 0.05 就得出结论认为治疗无效,这是对医学的还原论观点,并不总是反映现实。”她说,他们的研究报告现在包括更少的 p 值,更多结果以置信区间报告,而没有 p 值。该杂志还在拥抱开放科学的原则,例如发布更详细的研究方案,并要求作者遵循预先指定的分析计划,并在他们偏离计划时进行报告。
美国食品和药物管理局生物统计学部门主任约翰·斯科特表示,临床试验的要求没有任何变化。“我认为 p 值在短期内不太可能从药物开发中消失,但我预见到替代方法的应用会越来越多,”他说。例如,申请人对使用贝叶斯推断越来越感兴趣。“当前的辩论总体上反映了人们对传统统计推断的一些局限性的认识有所提高。”
即将上任的《心理学公报》编辑约翰逊表示,他与现任编辑意见一致,但他说,“我打算强制遵守相当严格的报告标准。这样,我确信每个人都知道发生了什么以及原因,他们可以更容易地判断方法是否有效或存在缺陷。”他还强调了执行良好的荟萃分析和系统评价作为减少对单一研究结果依赖性的方法的重要性。
麦克沙恩说,最关键的是,p 值“不应该是看门人”。“让我们采取更全面、更细致和更具评估性的观点。”这甚至也是罗纳德·费希尔的同代人所支持的。1928 年,另外两位统计学巨匠耶日·内曼和埃贡·皮尔逊在谈到统计分析时写道:“检验本身并没有给出最终结论,但作为工具,它们可以帮助使用它们的工人形成最终决定。”