在又一次统计障碍之后,fMRI 科学是否正在从错误中吸取教训?

最近的一项研究及其回应预示着该领域自我审视的新水平

神经科学界的一个小角落陷入了狂热。当时是六月中旬,一篇科学论文刚刚发表,声称多年的研究成果都充满了错误。

这项研究深入研究了用于分析一种名为功能性磁共振成像的大脑扫描的软件。研究人员写道,该软件的方法是错误的,这让人怀疑“大约 40,000 项 fMRI 研究的有效性”——换句话说,就是所有研究。

反应迅速。推特上挤满了惊慌失措的神经科学家。博客作者和记者纷纷发布标题,引用“严重缺陷”、“故障”和“漏洞”。其他科学家则纷纷发表文章捍卫他们的研究。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


最后,《美国国家科学院院刊》上发表的这篇论文的作者之一托马斯·尼科尔斯站出来发声。在一篇博文中,托马斯·尼科尔斯写道:“我后悔说出一个数字:40,000。” 尼科尔斯接着写道,他们的发现仅影响了所有 fMRI 论文的一部分——或者,一些科学家认为,可能根本没有影响。这远没有炒作的那么糟糕。

这场短暂的骚动可能只会被当作茶杯里的风波一笑置之,这是科学的自我纠正机制在起作用。但这项研究及其回应预示着 fMRI 研究的自我审视将达到新的水平,几十年来,fMRI 研究一直受到科学草率和迎合流行文化的指责。

换句话说,fMRI 正在成长,但并非一帆风顺。

脑部扫描的坎坷起步

当 fMRI 于 1992 年首次用于人体时,fMRI 借助强大的磁铁,可以测量流向大脑不同部位的血液中的氧气,从而使科学家们首次真正动态地观察到人类的大脑。在机器内部,研究人员可以看到当人们观察动物、做出决定或回忆记忆时,大脑的不同区域“活跃起来”。这是一项突破。

很快,大量研究涌现,声称使用 fMRI 来证明“男性只用一半的大脑来听”,找到“哎呀中心”的位置,或者解读 2008 年选举中摇摆选民的想法。

此后,fMRI 渗透到大众的想象和社会的许多领域。基于 fMRI 的测谎仪被誉为比多导睡眠图测试更高科技的改进(尽管使用这种类型的证据仍然是法律辩论的主题)。“神经营销”使用 fMRI 来策划如何向我们推销商品。而科普作家则在他们的书中大量使用 fMRI 研究来证明,例如,我们如何做出决定

但多年来,该领域不得不应对的最大问题是持续存在的统计问题。错误的统计方法可能导致假阳性结果——该领域的研究人员倾向于同意可能存在假阳性结果。

2009 年,科学家将一条死鲑鱼放入 fMRI 扫描仪中,向鲑鱼展示照片,进行了一些典型的分析,并发现了与鲑鱼“看到”的东西相关的“大脑活动”,这有力地证明了这一点。在这种情况下,统计数据的糟糕使用导致了假阳性结果。

同年,其他研究人员指出,fMRI 研究中人格特质与大脑活动之间存在“令人费解的高相关性”——令人费解是因为人格特质和大脑活动的测量都非常嘈杂,理论上不可能如此紧密地相关。在这种情况下,统计数据的糟糕使用夸大了效应量,导致了误导性的结论。

科学家们会在发现这些方法学问题时纠正它们,尽管扭转局面需要一些时间。但总的来说,科学家们似乎趋于保守,坚持使用他们以前使用过的方法,即使旧方法已被反复证明存在缺陷。

进步的迹象

现在,随着 fMRI 使用近四分之一个世纪,它已发展成为一项主要的神经科学研究技术。PubMed 中引用 fMRI 的论文数量从 1995 年的不到 200 篇增加到 2015 年的 6,700 多篇。全球有数百个实验室使用这项技术。

与此同时,质疑 fMRI 方法论的研究也大量涌现。这表明科学家和资助机构愿意努力正视该领域过去的一些罪恶。 

“我认为如果我在五年前做这件事,有人会说,‘哦,好吧,你只是在胡说八道,’”尼科尔斯说。“而现在我认为这就像,‘好吧,是的,我们确实需要关注这些事情,不是吗?’”

英国华威大学的统计学教授尼科尔斯现在认为,有欺骗性的统计数据出现在大约 3,500 项研究中,而不是他最初引用的 40,000 项。他已向该杂志提交了一份更正。

在这 3,500 项研究中,只有一部分会因为这个错误而得出错误的结论。如果重新分析,大脑活动非常显着的研究仍然会得到阳性结果;而那些处于临界点的研究则更危险。“只有当你逐一检查这些[研究]时,你才会知道,”尼科尔斯说。

这种情况不太可能发生。但 fMRI 分析软件包的开发者们正在忙于更新他们的软件,即使在我们说话的时候也是如此。

还有其他表明新成熟度的迹象。著名的 fMRI 科学家,包括斯坦福大学可重复神经科学中心主任罗素·波尔德拉克,以及尼科尔斯和其他人,最近发表了一篇关于“使用 MRI 进行神经影像学数据分析和共享的最佳实践”的白皮书。该论文提出了结果、数据和分析报告标准化的建议,以及将这些公开的做法。

这可以解决尼科尔斯论文发表后出现的一个大难题:研究人员无法确定哪些过去的研究使用了错误的统计方法。如果新的研究使用最佳实践,这些方法将更加透明。

这也意味着其他人可以回顾并重新分析研究结果——或者更好的是,汇集来自不同研究的结果,看看这些结果是否在更大的样本中成立。

汇集数据似乎是显而易见的,但并非总是如此。当 fMRI 大约 10 年时,研究人员开始进行“研究生旅行实验”:派遣研究生到三到四个不同的实验室,在不同的 fMRI 扫描仪上执行相同的任务。他们发现,同一个人的图像有时在不同的机器上看起来不同。其中一个原因是人们使用的 fMRI 机器在磁铁强度方面有所不同。这项技术没有标准化,这在今天仍然是一个问题。

然后,在 2009 年,来自儿童心理研究所的迈克尔·米尔汉姆博士汇集了数据来自许多实验室的 1,000 多个 fMRI 扫描数据集,并证明它们具有共同特征。“我认为这真的让所有人感到震惊,”美国国家心理健康研究所 (NIMH) 技术开发与协调办公室主任格雷格·法伯说。他认为米尔汉姆的论文是 fMRI 数据汇集的转折点。

从那时起,数据共享变得更加容易,并且被更多人谈论。“互联网速度更快,数据存储库更大,至少对于 fMRI 而言,该领域正变得更加标准化,因此您实际上可以共享数据并让人们查看它,”NIMH 功能成像方法主管彼得·班德蒂尼说。

至少在过去一年中,NIMH 一直在收集其资助的实验室的原始 fMRI 数据,并将其放入他们托管的数据存档中。现在,从 NIMH 获得资金进行 fMRI 研究的大多数研究人员都被要求或至少强烈建议将其数据提交到少数在线存储库之一。

另一个存储库 Neurosynth 由尼科尔斯、波尔德拉克和其他人创建,已收集了来自 10,000 多篇 fMRI 文章的信息——包括使用错误方法的研究——并使用计算机算法将数据合成在一起,对同一主题的许多研究进行荟萃分析。根据该分析,“很明显,您可以获得非常可靠的发现,”波尔德拉克补充说,“从最大的角度来看,我认为我们不必担心一切都丢失了。”

“斑点学”的风险

但大多数研究都不会被重新分析。缺乏重复性和错误方法的持续存在让一些研究人员感到沮丧。

以《美国国家科学院院刊》论文可能质疑的 3,500 项研究为例。尼科尔斯说,他们甚至没有犯最严重的错误。在他的博文中,他估计有 13,000 篇论文犯了一个更基本的错误,即七年前在死鲑鱼研究中最初发现的错误。

“从这个意义上说,我们并没有真正成熟,因为人们仍然在使用已被反复证明存在问题的方法,”一位匿名为《探索》杂志撰写博客的 fMRI 研究人员 Neuroskeptic 说。

加州大学伯克利分校的 fMRI 研究科学家马修·布雷特博士在一封电子邮件中表示,他认为当科学家分析错误时,后果太少。“这就是我后来认为的‘扔过墙’研究,即一项发现是否正确始终是别人的问题。”

其他人则更进一步。加州大学伯克利分校的心理学教授杰克·加兰特说,神经科学研究的这个子集“完全崩溃了”。“这个问题”——在《美国国家科学院院刊》的研究中强调——“只是崩溃的一个方面,甚至不是最糟糕的一个,”他在一封电子邮件中说。

加兰特避免使用《美国国家科学院院刊》论文揭露的统计方法,这些方法用于一些科学家所称的“斑点学”,或者寻找大脑中针对特定任务活跃的斑点。

相反,他们开发了其他类型的数据分析,这些分析的假设更少。加兰特团队的最新工作是全脑语言反应图谱。在那里,加兰特建立了大脑在听到单词时如何反应的模型,并用这些模型来预测大脑在听到其他单词时会做什么。他们的研究不是揭示你大脑中关于飞蛾的斑点,而是试图展示你整个大脑在听到任何昆虫时的反应。

加兰特说,大多数 fMRI 研究问题的根源在于人们如何解释他们的统计数据。“人们把统计显着性视为重要性,但实际上这两个概念彼此无关,”他说。

杯子是半空还是半满?

在 fMRI 社区内部,这些想法正在酝酿之中。最近,斯坦福大学科学家波尔德拉克在他的博客上解决了有关过去 fMRI 研究缺陷的问题。

“我自己一直在与完全相同的问题作斗争,我对我们过去 fMRI 分析方法的缺点的认识深深地动摇了我,”他写道。

波尔德拉克告诉 STAT,他认为发现研究很糟糕是科学进步的标志。他指出了 fMRI 的临床前景,并引用了自 2007 年以来,外科医生可以使用 fMRI 来规划他们的手术,帮助他们避免切除关键脑组织这一事实。

“很多人都在努力做正确的事情,”波尔德拉克说。“当我们发现我们认为正确的事情实际上并不正确时,他们有望改变他们的做法,努力做得更好。”

他的 Neurosynth 数据库——拥有 10,000 篇论文的数据库——是 fMRI 当前成就的另一个标志。如果你想知道某人是否正在经历疼痛、快乐或美好的回忆,波尔德拉克可以使用他们的大脑扫描“并以相当高的准确度预测这个人正在做的三件事中的哪一件。显然,如果这 10,000 篇论文都只是垃圾,你就做不到这一点,”他说。

总的来说,波尔德拉克说,既有乐观的理由,也有悲观的理由。与其认为“杯子主要是空的,我试图更平衡地认为杯子里有空气和水,我们必须弄清楚如何解释其中的混合物。”

STAT 许可转载。这篇文章最初发表于 2016 年 8 月 3 日

© . All rights reserved.