如果你想让世界相信鱼能感知你的情绪,那么只有一个统计指标就足够了:p 值。
p 值是科学家经常使用的一种通用指标,用于确定实验结果是否“具有统计显著性”。不幸的是,有时这种检验并不像宣传的那样有效,研究人员会赋予一个观察结果很大的意义,但实际上它可能是一个毫无价值的偶然事件。
假设你进行了一项科学实验,测试一种新的心脏病药物与安慰剂的效果。在试验结束时,你比较了两组。瞧,服用该药物的患者比服用安慰剂的患者心脏病发作次数更少。成功!药物有效!
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
嗯,也许不是。即使该药物完全无效,服用该药物的患者也有 50% 的可能性比服用安慰剂的患者表现更好。(毕竟,一组必须比另一组表现更好;药物组或安慰剂组哪个会更好只是碰运气。)
p 值将随机性的影响量化。它是指即使你的假设是错误的,看到积极实验结果的概率。许多科学领域长期以来的惯例是,任何 p 值低于 0.05 的结果都被认为是具有统计显著性的。这是一个武断的惯例,而且往往是错误的。当你将一种无效药物与安慰剂进行比较时,通常每 20 次会得到一次具有统计显著性的结果。如果你在一篇科学论文中进行 20 次这样的比较,那么平均而言,你将得到一个 p 值小于 0.05 的显著结果——即使该药物无效。
许多科学论文会进行 20 次、40 次甚至数百次的比较。在这种情况下,不调整 0.05 标准 p 值阈值的研究人员几乎可以肯定会在毫无意义的统计偶然事件中找到统计显著性。《美国临床营养杂志》二月号刊登的一项研究
对数十种化合物进行了测试,并得出结论,蓝莓中发现的化合物可以降低高血压的风险,p 值为 0.03。但是研究人员研究了如此多的化合物并进行了如此多的比较(超过 50 次),几乎可以肯定的是,论文中的某些 p 值仅凭偶然性就会小于 0.05。
同样的情况也适用于神经科学家团队曾经对鲑鱼进行的一项广为人知的研究。当他们向鱼展示表达人类情感的图片时,鲑鱼大脑的某些区域亮了起来。结果具有统计显著性,p 值小于 0.001;然而,正如研究人员所论证的那样,可能的模式太多了,以至于统计显著性结果几乎是可以保证的,因此结果完全没有价值。尽管存在 p 值,但这条鱼不可能对人类情感做出反应。fMRI 中的鲑鱼碰巧是死的。