埃德·武尔是麻省理工学院脑与认知科学系的博士研究生。他也是近期论文《社会神经科学中的伪相关性》的主要作者,该论文探讨了个体人格或情绪特征(如恐惧体验或信任他人的意愿)的测量结果与通过 fMRI 机器观察到的特定脑区活动之间的高度相关性。该论文引发了大量评论。“Mind Matters” 编辑乔纳·莱勒与武尔讨论了这项研究对社会神经科学未来的意义、媒体是否应为此负责,以及我们为什么应该始终进行多次猜测。
莱勒:是什么最初让您有兴趣批判性地审视社会神经科学中的 fMRI 论文?
武尔:大约四年前,[加州大学圣地亚哥分校神经科学家] 哈尔·帕什勒和我参加了一次演讲,其中报告了脑活动与某人在研究结束后走出房间的速度之间存在非常高的相关性。
支持科学新闻报道
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。
鉴于我们对 fMRI 的了解以及决定我们通常步行速度的因素,我们觉得难以置信的是,这个特定脑区的活动可以解释步行速度如此大的差异。尤其如此,因为 fMRI 活动是在步行发生前大约两小时测量的。因此,要么这个区域的活动直接控制着延迟两小时的运动动作——我们觉得难以置信——要么就是有什么蹊跷的地方。在那时,尽管我们有所怀疑,但我们并不确切知道那个蹊跷之处是什么,所以我们将这个话题搁置了。
几年前,我加入了 [麻省理工学院神经科学家] 南希·坎维舍的实验室,开始直接处理 fMRI 数据,我学习了相关的术语和统计学。在这一点上,[麻省理工学院博士后] 克里斯·贝克和南希·坎维舍对自然神经科学上的一篇论文提出了批评,该论文存在非独立分析的问题。在自己研究了一般情况(并写了一个关于该主题的章节)之后,我意识到很久以前在我们看来很可疑的相关性可能是如何产生的,因此我们着手调查——最终导致了这篇论文。
莱勒:“伪相关”是什么?
武尔:我们使用这个术语作为一种幽默的方式来描述复杂的统计方法产生的神秘高相关性(这些方法通常从未在我们研究的科学论文中清楚地描述过)——但不幸的是,这些方法最终产生了一些非常误导性的结果。我们关注的具体问题,也是造成许多神秘相关性的原因,是我们称之为“非独立”的测试和相关性测量。基本上,这涉及无意中选择性地挑选数据,并导致相关性估计被夸大。
要更详细地说明
fMRI 扫描会产生大量数据:头部的三维图像,它被分成许多小区域,称为体素。在高分辨率 fMRI 扫描中,三维图像中将有成千上万个这样的体素。
当研究人员想要确定大脑的哪些部分与行为的某个方面相关时,他们必须以某种方式选择这些数千个体素的子集。一种诱人的策略是选择与这种行为显示出高度相关的体素。到目前为止,这种策略是可行的。
当研究人员随后继续向读者提供仅在他们预先选择的具有高度相关性的体素内测量的相关性大小的定量测量时,问题就出现了。这个两步程序是循环的:它选择具有高度相关性的体素,然后估计一个高的平均相关性。这种做法夸大了相关性测量,因为它选择了那些既受益于偶然性,又受益于任何真实潜在相关性的体素,从而推高了数值。
人们可以在生活的许多领域看到非常类似的现象。假设我们挑选出 2005 年 4 月股票选择表现最佳的投资分析师。这些人可能倾向于拥有天赋,但他们也可能运气特别好(一些金融专家,如纳西姆·塔勒布,实际上说运气可能是更大的因素)。但即使假设他们比平均水平更有才华——正如我们怀疑的那样——如果我们要求他们再次预测,在随后的某个月份,我们总会发现,作为一个群体,他们无法复制他们在 4 月份的表现。原因是下一次,运气会帮助他们中的一些人,也会伤害他们中的一些人——而在 4 月份,他们都运气好,否则他们就不会进入顶尖群体。因此,他们在 4 月份的平均表现是对他们真实能力的过高估计——他们可以在平均月份复制的表现。
fMRI 数据和体素的情况完全相同。如果研究人员只选择高度相关的体素,他们会选择“运气好”的体素,以及具有一些潜在相关性的体素。因此,如果您将您用来挑选体素的相关性作为衡量这些体素真实相关性的标准,您将得到一个非常具有误导性的过高估计。
那么,这就是我们认为伪相关性的根源:分析无意中利用了偶然性,导致相关性测量被夸大。棘手的部分,我无法在此详细说明,是调查人员实际上试图考虑到他们正在检查如此多不同的大脑区域——但他们的预防措施使我正在描述的问题变得更糟,而不是更好!
莱勒:您的论文引发了社会神经科学家之间的大量辩论,一些科学家发表了对您的论文的反驳。(您随后反驳了这种反驳。)您希望这场辩论带来什么?您希望使用 fMRI 的社会神经科学家采用哪些方法论上的改变?
武尔:我们引发的辩论非常有趣。起初,一些我们批评其论文的作者对我们的统计观点提出了挑战,但——出于充分的理由——这种论证路线似乎没有流行起来。就我所知,目前似乎每个人都承认,这些研究中使用的分析在提供可以认真对待的相关性数值方面是不合规的。相反,我们现在主要听到其他一些论点。
其中一种观点是,相关性值本身并不重要——重要的是头部某个位置存在相关性这一事实。我完全不同意这种观察,我们认为这些论文中的许多论文出现在如此引人注目的地方,是因为编辑们(有道理地)对巨大的影响印象深刻。如果一个人可以解释个体在焦虑或共情等重要事物上的差异的四分之三,那么这显然是一个真正的突破,它不仅告诉您未来的研究应该关注哪里,而且还告诉您不应该关注哪里。另一方面,如果只有 3% 的方差,那就远没有那么令人印象深刻,并且可能反映更间接的关联类型。
我还听到有人抱怨说,即使我们在数学观点上是正确的,我们提出论点的方式也有点粗鲁——批评特定文章,引起外界对该领域的不利关注,并使用了幽默的术语“巫毒”。
我们和任何人一样惊讶于我们的论文引起了如此多的兴趣。显然,它以某种“病毒式”的方式传播开来——我们认识的一位神经科学家说他收到了七份副本(没有一份是我们寄的)。好的一面是,人们现在更认真地思考他们如何进行分析。坏的一面是,所有这些宣传都让一些作者感到尴尬和受到指责。在我们看来,独立性和多重比较的统计问题充满了棘手的陷阱——我们并不认为这是人们犯的愚蠢错误,我们对伤害任何人的感情感到遗憾。但是,我认为写一篇没有“指名道姓”的文章是没有意义的,因为如果科学文献要指导未来的研究决策,人们必须知道哪些结果可以依赖,哪些结果不能依赖。(事实上,我们怀疑我们只标记了有这些问题的一小部分论文,而且有些论文在其他领域,例如神经遗传学、更广泛的认知神经科学和其他领域。)
莱勒:您是否认为媒体在一定程度上应对社会神经科学发现的耸人听闻负责?媒体如何才能更好地报道脑部扫描数据?
武尔:社会神经科学令人兴奋!谁不想知道我们为什么会感到爱、嫉妒或幸灾乐祸;我们如何决定惩罚他人;以及为什么被拒绝会感到痛苦?因此,在这个领域中,不需要太多的东西就能使发现变得耸人听闻——大多数发现已经能够抓住公众的想象力,他们只需要媒体稍微推动一下。
总的来说,我主张记者对所有科学发现都持 более skepticism 的态度。我认为记者通常会试图用比科学家最初使用的更宏大的措辞来写结论。他们可能没有意识到的是,科学家自己也经常过分夸大其发现的意义。您将这些东西放在一起,最终可能会得到非常夸大的报道。(另一方面,也许如果遵循这个建议,科学专栏最终会变得枯燥乏味且无人阅读,所以也许我应该撤回这个建议。)。
当涉及到报道脑部扫描数据时,我注意到似乎让公众和记者兴奋的发现主要是“大脑做 X”这一类,其中 X 是我们珍视的某些深刻的人类特征(例如爱、语言等等)。也许这对试图坚持认为心灵和大脑是不同实体的外行人来说仍然令人兴奋。但是,我不认为有很多研究神经科学的人会觉得这特别有趣。我们大多数人都深信心灵和大脑是一回事。也许如果记者专注于某事物在大脑中如何运作的问题,而不是它在大脑中运作的问题,他们可能会选择该领域中稍微更(科学上)令人兴奋的子集。
莱勒:当您不考虑伪相关性时,您研究什么?
武尔:最近我一直在认知心理学和机器学习的界面上工作,询问人们如何进行相当困难的统计计算(我们似乎总是无意识地和自动地进行这些计算)。
我一直在探索人类思维是一个“采样引擎”的想法,基本上,它体现了复杂的统计模型,但只能通过抽取样本来对它们做出判断。这相当于给某人一枚弯曲的硬币:他不知道它正面或反面朝上的概率,但他可以随意翻转它。
关于这个主题的一个实验最近引起了一些媒体的兴奋(当我的论文的结论被夸大时,我非常高兴),我们称之为“内在群体智慧”。
如果您要求两个人猜测纽约有多少人居住,平均而言,他们的两个猜测的平均值将比任何一个单独的猜测都更好。这种群体智慧效应是来自不同人的猜测具有独立误差的结果。
我们测试了即使来自一个个体的两个猜测的平均值也会比任何一个单独的猜测更准确的假设。如果来自一个个体的多个反应是来自内部概率模型的某种独立样本——就像抛硬币一样——情况就会如此。事实上,这正是我们发现的。来自一个人的两个猜测的平均值(平均而言)比任何一个单独的猜测都更好——如果两个猜测之间间隔两周,改进甚至更大。因此,我们实际上拥有自己思维中不断发展的群体——在某些情况下,我们可以通过咨询该群体而不是仅仅做出一个即时判断来获益。
您是科学家吗?您最近是否读过一篇您想撰写的同行评审论文?然后联系“Mind Matters”编辑乔纳·莱勒,他是博客The Frontal Cortex和书籍《普鲁斯特是神经科学家》背后的科学作家。他的下一本书《我们如何决定》将于 2009 年 2 月出版。