2013年12月16日

生物医学研究：信不信由你？

一篇研究文章飞速冲向其第一百万次浏览量的情况并不常见。每天都有数千篇生物医学论文发表。

作者：希尔达·巴斯蒂安

本文发表在《大众科学》的前博客网络中，反映了作者的观点，不一定反映《大众科学》的观点

一篇研究文章飞速冲向其第一百万次浏览量的情况并不常见。每天都有数千篇生物医学论文发表。尽管作者们经常热情地恳求“看看我！看看我！”，但大多数文章不会引起太多注意。

不过，吸引注意力从来都不是这篇论文的问题。2005年，现在在斯坦福大学的约翰·伊奥尼迪斯发表了一篇论文，至今仍像刚发表时一样受到关注。它是总结孤立地看待研究的危险性以及其他偏见陷阱的最佳文章之一。

但是为什么如此受关注？好吧，这篇文章认为大多数已发表的研究结果都是错误的。正如您所料，其他人认为伊奥尼迪斯发表的研究结果本身就是错误的。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您将帮助确保未来关于塑造我们当今世界的发现和想法的有影响力的故事。

您可能通常不会觉得关于统计方法的辩论有多么吸引人。但是，如果您曾经对今天令人兴奋的科学新闻经常变成明天的揭秘故事感到沮丧，请继续关注这篇文章。

伊奥尼迪斯的论文基于统计建模。他的计算使他估计，超过 50% 的已发表生物医学研究结果，其 p值 < 0.05 很可能是假阳性。我们稍后会回到这个问题，但首先请认识一下两位挑战这一点的数字专家。

2007 年第一轮：当时在约翰霍普金斯大学生物统计系和加州大学洛杉矶分校的史蒂文·古德曼和桑德·格林兰加入。他们对原始分析的特定方面提出了挑战。他们认为我们还不能对生物医学研究中的假阳性做出可靠的全局估计。伊奥尼迪斯在PLOS Medicine的原始文章的评论部分写了反驳。

2013 年第二轮：接下来是来自美国海军学院数学系的莉亚·贾格和约翰霍普金斯大学生物统计系的杰弗里·利克。他们使用完全不同的方法来研究同一个问题。他们的结论是：医学研究中只有 14%（上下浮动 1%）的 p 值可能是假阳性，而不是大多数。伊奥尼迪斯回应了。 其他统计学权威也做出了回应。

那么到底有多少是错误的？大多数、14% 还是我们根本不知道？

让我们从p值开始，这是一个经常被误解的概念，它是关于研究中假阳性的争论的组成部分。（请参阅我之前关于它在科学衰落中的作用的文章。）右边那位兴高采烈的数字运算员刚刚踏入了假阳性p值陷阱。

几十年前，统计学家卡洛·邦费罗尼解决了试图解释不断增加的假阳性p值的问题。使用一次测试，错误的几率可能是 1/20。但是，你使用统计测试寻找这种、那种数据之间是否存在正相关关系的情况越多，你认为自己取得的“发现”就越可能出错。并且，大数据集中噪音与信号的比率也会增加。（关于邦费罗尼、多重测试问题和错误发现率的更多信息，请参见我的另一个博客Statistically Funny。）

在他的论文中，伊奥尼迪斯不仅考虑了统计数据的影响，还考虑了研究方法的偏差。正如他指出的那样，“随着偏差的增加，研究结果为真的可能性会大大降低。”例如，在一个大型数据集中挖掘可能的关联不如测试其他研究类型产生的假设的那种设计良好的大型临床试验可靠。

他是如何做到这一点的，这是他和古德曼/格林兰分歧的第一个领域。他们认为伊奥尼迪斯用来解释其模型中偏差的方法过于严厉，导致假阳性的假设数量过高。他们都同意偏见的问题——只是不同意量化偏见的方法。古德曼和格林兰还认为，许多研究将p值扁平化为“< 0.05”而不是确切值，会阻碍这种分析，以及我们测试伊奥尼迪斯正在解决的问题的能力。

他们意见不一致的另一个领域是伊奥尼迪斯在高知名度研究领域得出的结论。他认为，当许多研究人员活跃在某个领域时，任何一项研究结果出错的可能性都会增加。古德曼和格林兰认为，该模型不支持这一点，而只是当有更多研究时，错误研究的机会会成比例增加。

贾格和利克使用完全不同的方法来研究伊奥尼迪斯提出的问题。他们从 5 个主要期刊的十年中所有论文的摘要中挖掘了 5,322 个 p 值。然后，他们使用了一种从基因组研究中改编而来的错误发现率 (FDR) 技术。他们承认需要研究 FDR 如何适用于非基因组研究，但他们的工作仍然表明，真正的错误发现率肯定远低于“大多数”。

伊奥尼迪斯坚持自己的观点。他指出，这 5 个期刊并不代表文献。例如，偏差最小的研究类型（随机对照试验和系统综述）的比例比一般文献高出 10 倍以上。并且摘要中的p值也不能说明全部情况。

这把我们带向何方？研究中全球假统计阳性的比率是接近 15% 还是 50% 或更高？我认为古德曼和格林兰证明了我们仍然不知道。这两项研究以及伊奥尼迪斯也指出的研究重复成功率较低的情况表明，这个比例高得令人不安。并且毫无疑问，在某些类型的研究中，出错的可能性比其他类型的研究要高得多。伊奥尼迪斯的文章很好地总结了导致这种情况的问题和许多偏见。

高度偏差的研究造成损害的主要原因之一是，当我们所有人决定是否相信研究结果时，偏差会起作用。这就是我们倾向于相对不加批判地接受那些我们希望相信为真的发现，同时挑剔那些具有对抗性的研究发现。我们必须处理的最大偏见是我们自己。

~~~~

有关此内容的更多信息，请参见我九月份的文章，不良研究抬头和学术包装。另请参见“保护自己免受数据主导错误影响的 6 个技巧”和“他们会那样说，不是吗？”

这篇文章中的漫画是我从 Statistically Funny 帖子中摘取的原创作品，这些帖子讲述了孤立地看待研究和多重测试/错误发现率的危险。

“大多数研究结果都是错误的”的论文追踪

伊奥尼迪斯的原始论文
古德曼和格林兰详细回应并在评论部分中回应
伊奥尼迪斯回应古德曼和格林兰
贾格和利克用一篇“错误发现率”研究回应
伊奥尼迪斯回应
倒计时到一百万？*

披露：我是PLOS Medicine的学术编辑，该开放获取医学期刊发表了伊奥尼迪斯的论文。

* 希尔达·巴斯蒂安在Absolutely Maybe这里表达的想法是个人观点，不一定反映美国国立卫生研究院或美国卫生与公共服务部的观点。