本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
知识是积累的。但研究结果可能会出现矛盾或误导。你不能简单地进行人数统计:3 项研究赞同减去 1 项研究反对 ≠ 赞成。那项说“不”的研究可能在有效性和效力方面超过其他研究。
如果你想确定研究结果的总和,你需要对研究进行研究。这需要一套专门设计的统计技术。元分析是将多个研究的数据合并和分析。
现在我们越来越被数据和矛盾的研究淹没,你会更频繁地看到元分析。以下是我“最重要的 5 个”概念和事实,帮助你理解它们。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事能够继续存在。
1. 图表引人入胜——不要只跳到结尾
当数据可以在元分析中汇集时,它们通常会以动感十足的可视化图表显示。
它们被称为森林图。(别问我为什么——似乎没人知道。这可能与看到森林而不是树木有关,也可能无关。但它绝对不是以一位福雷斯特医生命名的!)
你需要理解森林图的主要概念是置信区间 (CI)。它显示了结果周围的误差幅度。
当你被问到“那需要多久?”时,你大致估算的就是置信区间。你回答“大约 5 到 10 分钟”,而不是“7.5 分钟”。这是关键信息。(关于置信区间的更多信息请点击此处。)
森林图显示了每项研究中结果的分布。这张图包括了 7 项关于“恐吓教育”计划的试验。每条水平线显示了一项研究的结果。线的长度从置信区间的一端到另一端。
中间的垂直线是无效点。如果一项研究的结果哪怕只是触及到这条线,那么该结果就不是统计学显著的。如果一个结果完全在左侧,则意味着该研究表明犯罪率下降。但合并后的结果在右侧,表明犯罪率上升。
底部的菱形使用统计模型计算合并结果。如果确定性不高,菱形会分散且细长,但当数据更强时,菱形会变得矮胖而大。
你可能会遇到的另一种图是漏斗图。它用于检查是否有理由怀疑阴性研究可能未发表,尽管这种技术的可靠性存在争议。(我在这里解释了漏斗图。)
2. 证据强度因结果而异
这是一个关键问题——而且不仅对元分析而言。这样想。假设你对 25 个人进行了调查,他们都回答了前 2 个问题。但只有 1 个人回答了最后一个问题。你会对前 2 个问题的数据感到非常确定,不是吗?但你对最后一个问题的主题一无所知。
研究和元分析也是如此。对于元分析中的任何特定问题,可能有不同数量的研究可以回答它。例如,每项研究可能使用了不同的测量尺度。许多研究甚至不会问分析中的大多数问题。并且各个研究中数据的质量也会有所不同。
这是人们在元分析方面最常犯的陷阱。他们说(或认为),“一项对 65 项研究、超过 738,000 名参与者的元分析发现了 x、y 和 z。”但对 x 的回答可能来自 2 项大型、高质量的研究,其中包含大量关于 x 的良好数据。对 y 的回答可能来自 48 项质量参差不齐的小型研究,其中包含关于 y 的数据。而对问题 z 的回答……嗯,你懂的。
3. 数据选择和统计技术可能会改变结果
当元分析意见不一致时,混乱也可能升级。这可能有一个简单的原因——例如,元分析师的问题并不完全相同,或者一个是更新的,并且包含一个重要的新数据集。
我在这篇文章中更深入地探讨了这一点。正如我在那里解释的那样,这有点像观看一场足球比赛,场上有几支球队同时比赛。有些球员在所有球队中,但有些球员只为一支或两支球队效力。每支球队的球门柱位置略有不同——而且每支球队不一定都遵守相同的规则。而且没有裁判。
可以选择不同的统计测量和模型。我将在以后的文章中讨论一些特定于元分析的数据问题。处理这些问题的重要方法之一是预先计划敏感性分析。当你知道这个或那个选择可能会改变结果时,你可以计划进行替代分析以考虑影响。如果你查看“恐吓教育”审查,你会看到他们已经这样做了。(无论他们如何分析,他们的结论都保持不变。)
4. 并非所有元分析都相同
来自研究的各种数据集都可以进行元分析——并且以不同的方式进行。要考虑的一个关键问题是,它是否是系统评价的一部分,该系统评价寻找了关于该问题的所有相关研究。
许多人互换使用“系统评价”和“元分析”这两个术语。但这很冒险,因为你不能想当然地认为如此。
还有不同类型的元分析研究。例如,这只蟾蜍卡通中的那个是累积元分析。它绘制了第一项研究的结果,然后将其与第二项研究合并,然后与第三项研究合并,依此类推。你可以观察到数据随着时间推移的变化。
另一种类型是基于临床试验的个体患者数据元分析。一些或所有试验者汇集了原始患者级别的数据——而不仅仅是研究报告中的汇总数据。这可以让你获得更高的精度,尤其是在参与者的亚组方面。
网络元分析又有所不同。它也称为多重治疗(或混合治疗)元分析。它探索了原始研究人员未进行的比较——例如,比较两种仅在针对安慰剂的试验中分别测试过的治疗方法。
然后是元分析的“劳斯莱斯”:前瞻性元分析。这可能是处理多项研究的最少偏见的方法。从一开始,着手进行原始研究的研究人员小组就同意如何汇集和元分析他们的研究,甚至在完全知道研究结果之前就达成一致。这是一个例子。
5. 缺乏证据并不等同于没有证据……大多数时候是这样
最后但同样重要的是:仅仅因为一项研究没有找到某事的证据,这并不等同于证明它不存在。关于这一点,这里有更多信息。
当多项研究在某件事上都空手而归时,这可能非常具有说服力——并且很容易跳到那里肯定没有任何东西的结论。但要仔细观察。
元分析可能最初用于天文学,并在 70 年代在社会科学中得到改进。它最近在医学研究中真正兴起。以下是一些链接,可以了解其在基因组、生态学、犯罪、教育、动物研究等领域的应用。
元分析是一种相对较新的统计技术,并且并没有得到广泛理解。人们可能会非常怀疑他们不理解的事物。
然而,试图以任何其他方式理解大量数据的风险是巨大的。这是一张截至 1977 年的药物试验森林图的一部分,当时元分析开始说服医生其价值。
难怪对这种药物存在竞争阵营。你如何才能从这些线条代表的大量论文中找出它的价值?它现在是降低心脏病发作后死亡率的标准治疗方法,但在争议激烈的多年里,它并没有得到广泛应用。
元分析是复杂且容易出错的。但请考虑另一种选择。
~~~~
在我和保罗·格拉齐乌和伊恩·查尔默斯合著的这篇文章中了解更多关于卫生领域系统评价和元分析的里程碑事件,此处有更新数据。
要查找关于医疗保健干预措施的系统评价,无论是否进行元分析,请尝试PubMed Health。
对于基因组流行病学中的元分析,请从人类基因组流行病学网络 (HuGENet) 开始。
教育、犯罪和司法、社会福利和国际发展领域系统评价的起点是坎贝尔协作组织(C2)。(我还在此处撰写了关于犯罪和司法领域科学证据的博客。)
环境领域系统评价的起点是CEE——环境证据协作组织。
对于动物研究,请从CAMARADES开始——动物实验研究数据元分析和评价的协作方法。
这些卡通是我的原创作品,主要来自Statistically Funny(知识共享署名-非商业性使用-相同方式共享 许可)。
“恐吓教育”森林图来自Petrosino 及其同事的系统评价。
链激酶森林图的摘录来自Antman 及其同事的文章。
* 希尔达·巴斯蒂安在Absolutely Maybe 上表达的观点是个人观点,不一定反映美国国立卫生研究院或美国卫生与公众服务部的观点。