2013年11月11日

统计显著性及其在科学衰落中的作用

想象一下，如果存在一个简单的单一统计量，每个人都可以将其用于任何数据集，并且它可以可靠地将真与假区分开来。

本文发表于《大众科学》的前博客网络，反映了作者的观点，不一定反映《大众科学》的观点。

想象一下，如果存在一个简单的单一统计量，每个人都可以将其用于任何数据集，并且它可以可靠地将真与假区分开来。啊，我们将会知道多少事情！虽然期望这种魔法是不现实的，不是吗？

然而，统计显著性通常被视为那根魔杖。假设一个零假设，或者在数据集中寻找因素之间的任何关联，然后“abracadabra”！得到一个大于或小于 0.05 的“p 值”，你就可以95% 确定它要么是偶然事件，要么不是。你可以消除偶然性的作用！你可以将信号从噪声中分离出来！

除非你不能。这并不是统计显著性检验的真正作用。问题就在这里。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过订阅来支持我们屡获殊荣的新闻报道。通过购买订阅，您将有助于确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。订阅

统计显著性检验估计的是，如果假设研究是正确的，则大致得到该结果的概率。它本身不能告诉你这个假设是否正确，或者结果是否在不同情况下成立。它提供了概率的有限视图，只考虑了关于数据的有限信息，并仅提供“是”或“否”作为选项。

更重要的是，统计显著性本身可能是一个“偶然事件”，并且在较大的数据中以及当你对相同数据中的多个比较运行测试时，这种情况会变得更有可能。你可以在这里阅读更多相关内容。

统计显著性检验很容易听起来像是将麦子从谷壳中分离出来，告诉你什么是“真”什么是“假”。但是它本身做不到这一点。更重要的是，“显著”并不意味着它也很重要。效果的细微差别也可能达到小于 5% 的阈值。我们稍后将回到这一切的实际含义。

统计显著性检验的常用方法非常简单易懂，即使在没有计算机之前也易于操作，因此它席卷了科学界。正如 Stephen Stigler 在他关于费希尔和 5% 水平的文章中所解释的那样，“它向实验者和研究人员的世界开放了统计计算的神秘领域。”

但也导致了一些滥用行为。过度简化地使用统计显著性需要对许多问题负责。正如约翰·伊安尼迪斯在此处指出的那样，这是科学无法重复结果的一个重要原因。

在我们进一步讨论之前，我需要坦白。我不是统计学家，但我解释统计概念已经很长时间了。在这个问题上，我长期以来也采取了简单的方法。但是我现在认为，在如此多的培训中延续过度简化的解释方式是问题的主要部分。

在我们在最近在佛罗里达州举行的全国科学作家协会年会的小组讨论会上，我们需要更好地沟通统计显著性意味着什么以及不意味着什么的复杂性。

统计学爱好者和SciAm 博主 Kathleen Raven 组织并领导了我、SciAm 数学家博主 Evelyn Lamb、统计学教授 Regina Nuzzo 和数学家 John Allen Paulos 的小组。Raven 正在围绕这群热爱乐趣的、撰写科学文章的极客们组织一个名为 Noise and Numbers 的博客。我当天的幻灯片在这里的左侧。

我在那里提出的两点与这个问题相关。首先，需要避免过度精确并考虑置信区间或标准差。当您拥有置信区间的数据时，您会比统计显著性的 p 值提供更好的图片。它更有趣，也更直观。您可以在这里和这里了解更多关于这些概念的信息。

其次，重要的是不要孤立地考虑一项研究的信息，我在这里深入探讨了一个话题。一项研究本身很少会提供“最终”答案。

这最终将我们带到了托马斯·贝叶斯，这位 1700 年代的数学家和牧师，他的思想对于讨论计算和解释概率至关重要。贝叶斯认为，我们在考虑概率时应该考虑我们先前的知识，而不仅仅是根据一个固定的、不变的数量来计算我们面前的特定数据集的频率，而不管问题是什么。

您可以在维基百科上阅读更多关于贝叶斯统计的信息。那里给出的一个例子是这样的：假设有人告诉你他们在和某人说话。这个人是女性的可能性通常可能是 50%。但是如果他们说他们在和一个长发的人说话，那么这个知识可能会增加这个人是女性的可能性。你可以根据这些知识计算一个新的概率。

统计学家通常被分为贝叶斯学派或频率学派。在我帖子顶部的漫画中进行病房查房的统计学家绝对是贝叶斯学派！

无论如何都绝对坚持 p < 0.05（或 0.001）将是典型的频率学派。关注此问题的重要原因是我们的先前知识的薄弱——以及人们可能会非常偏颇并且如果没有固定的目标柱，可能会随意处理数据的知识。

贝叶斯主义兴衰了几次，但统计复杂性的提高和计算机能力的提高使其能够在 21 世纪崭露头角。而且并非每个人都属于其中一个阵营：存在很多“融合”思想。

Valen Johnson 刚刚在 PNAS（美国国家科学院院刊）中指出，用于计算统计显著性的贝叶斯方法已经发展到足以影响实践的地步。Johnson 的意思是，统计显著性的阈值需要大大降低——更像是 0.005 而不是 0.05。哎呀。这对于研究所需的样本量的影响将是巨大的。

不过，这并非真的完全取决于 p 值的阈值在哪里。统计上显著的发现可能因各种原因而重要或不重要。一条经验法则是，当结果确实达到该数值水平时，数据会显示某些东西，但始终需要将其嵌入到对超出此范围的考虑之中。例如，例如，明显效果的大小和重要性，以及置信区间是否表明该估计是极不可能的。

但是，关于统计显著性水平的争论并不意味着不具有统计显著性是无关紧要的。没有达到统计显著性的数据过于薄弱，无法得出任何结论。但是，正如具有统计显著性并不一定意味着某件事是“真”的一样，没有足够的证据并不一定证明某件事是“假”的。更多相关信息请点击这里。

关于贝叶斯学派与频率学派以及假设检验的争论生动地提醒我们，统计学领域是动态的——就像科学的其他部分一样。并非每个统计学家都会以相同的方式看待事物。理论和实践将受到质疑，知识将得到发展。有很多方法可以询问数据并解释其含义，并且仅通过一种度量的角度来看待数据是没有意义的。p 值不是可以统治所有数值的唯一数字。

~~~~

有关统计学和科学写作的更多信息，请访问我们在佛罗里达州的冒险之旅产生的网站：Noise and Numbers。

如果您有以通俗易懂的方式精确解释统计显著性的好方法，请将其添加到评论中！我非常渴望找到更好的方法来做到这一点。解释统计显著性实际含义的段落已根据原始段落进行了改进。

一本免费在线的优秀书籍可以帮助您理解健康统计数据，该书是 Steve Woloshin、Lisa Schwartz 和 Gilbert Welch 撰写的《了解你的机会》。

Gerd Gigerenzer 在他的文章《盲目的统计学》中探讨了关于简单假设和显著性检验的许多局限性和“一厢情愿的想法”。维基百科是一个很好的起点，可以了解更多信息。另一篇关于理解概率的优秀文章是 Gerd Gigerenzer 和 Adrian Edwards 在这里撰写的。

Statistically Funny 上的相关帖子是

Statistically-Funny 漫画是我的原创作品（知识共享、非商业、共享相似许可）。

声称描绘托马斯·贝叶斯的肖像图片来自维基媒体共享。

*希尔达·巴斯蒂安在此《绝对可能》中表达的想法是个人观点，不一定反映美国国立卫生研究院或美国卫生与公众服务部的观点。