科学家对用于区分研究虚假与事实的统计工具的缺失感到不安

《基础与应用社会心理学》期刊最近禁止使用p值和其他统计方法来量化研究结果中显著性的不确定性

心理学研究人员最近发现自己陷入了一场统计学上的自我反省。在显然是科学期刊有史以来的首次举动中,《基础与应用社会心理学》的编辑在二月份的一篇社论中宣布,提交研究论文发表的研究人员将不允许使用一套常用的统计方法,其中包括一个有争议的称为p值的指标。

这些被称为零假设显著性检验(NHST)的方法,深深地嵌入了现代科学研究过程中,一些研究人员一直在想该转向何处。“p值是最广为人知的统计量,”约翰·霍普金斯大学的生物统计学家杰夫·利克说。利克估计,p值至少已被用于三百万篇科学论文。显著性检验如此受欢迎,以至于正如期刊社论本身所承认的那样,没有广泛接受的替代方法来量化研究结果中的不确定性——而不确定性对于估计研究结果在多大程度上推广到更广泛的人群至关重要。

不幸的是,p值也被广泛误解,人们常常认为它提供的比实际信息更多。许多研究人员一直错误地认为p值给出了他们研究结果纯粹是随机机会的概率。但统计学家说,p值的信息要不那么具体,只能在假设的替代情景下进行解释:p值总结了如果这项研究重复无限次,并且事实上只有纯粹的随机机会起作用时,至少与观察到的结果一样极端的结果会出现的频率。


支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


这意味着p值是对假设研究重复中的虚构数据的陈述,而不是对任何特定研究中实际结论的陈述。p值不是可以探究特定科学发现真相的“科学测谎仪”,而更像是一个“替代现实机器”,让研究人员将他们的结果与随机机会可能产生的假设结果进行比较。“p值所解决的是错误的问题,这导致了广泛的困惑,”阿姆斯特丹大学的心理学家埃里克-扬·瓦根马克斯说。

表面上,p值允许研究人员只要将其作为实验设计和分析的仔细过程的一部分,就可以得出细致的、客观的科学结论。但批评人士抱怨说,在实践中,显著性检验中的p值已被滥用成了一种粗糙的科学发现垃圾邮件过滤器:如果一个潜在有趣结果的p值小于0.05,那么根据规定,该结果就被认为是“统计学上显著的”,并被送去发表;任何具有较大p值的结果都注定要被扔进垃圾桶。

彻底放弃p值是一个极端的举动。“零假设显著性检验程序在逻辑上是无效的,因此将其从科学中删除似乎是明智的,”新墨西哥州立大学拉斯克鲁塞斯分校的心理学家大卫·特拉菲莫夫说,他是该期刊的编辑。去年,一篇措辞强硬的社论不鼓励在该期刊上进行显著性检验。但在研究人员未能听取警告后,特拉菲莫夫说,他和副编辑迈克尔·马克斯今年决定继续执行这项新规定。“统计学家们几十年来一直在批评这些概念,但没有期刊有胆量直接禁止它们,”瓦根马克斯说。

当科学家们急于寻找易于非专业人士遵循的数据分析“方法”时,显著性检验在20世纪40年代被写入教科书,最终将两个不兼容的统计系统——p值和假设检验——混合成一个死记硬背的过程。“p值从来没有打算以我们今天使用的方式使用,”斯坦福大学的生物统计学家史蒂文·古德曼说。

尽管对显著性检验的抱怨清单很长而且相当技术性,但抱怨都围绕一个共同的主题:显著性检验的“科学垃圾邮件过滤器”在帮助研究人员将真实和重要的影响与相似的影响区分开来方面做得不好。这意味着科学期刊可能充斥着不太可能是真实的断言和结论。“我相信心理学家已经醒悟过来,并意识到一些在高影响力期刊上发表的作品是彻头彻尾的无稽之谈,”瓦根马克斯说。

并不是说心理学垄断了发表经不起仔细检查的结果。例如,大规模基因组研究中的基因搜索研究人员过去常常被太多标记不重要基因的假警报结果所困扰。但利克说,自从该领域开发出新的统计技术并摆脱了p值的自动使用以来,结果的可靠性有所提高。

然而,尽管p值令人困惑,但并非所有人都赞成将其从研究人员的统计工具箱中移除。“这可能是一种治标不治本的情况,”古德曼说。“目标应该是明智地使用统计数据。如果期刊要移除一种工具,无论其被滥用,他们都需要用更有意义的东西来替代它。”

一种可能符合要求的替代方法是另一种数据分析方法,称为贝叶斯主义。(该期刊表示,它将“在个案基础上”考虑在其提交的论文中使用贝叶斯主义。)贝叶斯主义从完全不同的原则出发:该统计系统不是努力寻求科学客观的结论,而是接受主观性,允许研究人员结合他们自己的先验知识和信念。贝叶斯主义广泛应用的一个障碍是缺乏用户友好的统计软件。为此,瓦根马克斯的团队正在努力开发一个免费的、开源的统计软件包,名为JASP。它的标语是:“让贝叶斯统计变得可访问。”

其他解决方案从不同的角度攻击这个问题:人性。由于现代科学研究人员面临激烈的竞争,并且需要产生足够多的统计学上显著的结果以供发表,从而获得晋升,因此研究小组设法比预期的更频繁地发现显著的p值也就不足为奇了,这种现象在2011年被宾夕法尼亚大学的心理学家尤里·西蒙松称为“p值破解”。

一些期刊正在尝试一种新方法,由威尔士卡迪夫大学的心理学家克里斯托弗·钱伯斯率先提出,研究人员提前公开“预注册”他们所有的研究分析计划。这给了他们更少的回旋余地来从事当研究人员在研究过程中改变他们的分析以产生比原本更具有统计学意义的结果时发生的那种无意识的——甚至是故意的——p值破解。作为交换,研究人员可以优先发表这些预注册研究的结果——即使他们最终得到的p值低于正常的发表标准。

最后,一些统计学家将教育作为答案。“p值很复杂,需要经过培训才能理解,”利克说。他说,科学教育尚未完全适应数据丰富且不可避免的世界,而且没有足够的统计顾问可以提供帮助,因此大多数研究人员只能在接受过几门统计学课程的情况下分析自己的数据。“大多数研究人员并不关心统计方法的细节,”瓦根马克斯说。“他们使用它们只是为了在一般意义上支持他们的主张,以便能够告诉他们的同事,‘看,我被允许提出这个主张,因为p小于0.05,现在不要再质疑我的结果了。’”

一个新的在线九门课程的“数据科学专业化”课程,为几乎没有统计学背景的专业人士开设,可能会改变这种情况。利克和他在约翰·霍普金斯大学的同事去年推出了这些免费课程,可通过受欢迎的Coursera在线继续教育平台获得,并且已经有 200 万学生注册。利克说,作为该系列课程的一部分,将有一个长达一个月的课程专门用于理解允许研究人员传达研究发现的不确定性和普遍性的方法——包括,是的,p值。

© . All rights reserved.