为社会神经科学的价值辩护

一位社会神经科学家回应了关于影像学研究结果经常被夸大的有争议的批评。

马修·利伯曼是加州大学洛杉矶分校的社会神经科学副教授。近几周，他还反驳了一篇近期论文的观点，《社会神经科学中的巫毒相关性》，该论文探讨了高相关性，即个体的人格或情绪性测量（例如恐惧的体验，或信任他人的意愿）与在 fMRI 机器中观察到的特定大脑区域的活动之间的相关性。《心灵 Matters》编辑乔纳·莱勒与利伯曼就为什么大多数 fMRI 相关性不是虚假的，“强烈悲伤”的“回报”以及为什么接受不公平的提议似乎会激活与自我控制有关的大脑区域进行了对话。

莱勒：您的研究领域最近在一篇题为《社会神经科学中的巫毒相关性》的论文中受到了抨击。作者的论点是什么？他们是否发现了该领域的一个重大问题？

利伯曼：在他们的论文中，武尔及其同事认为，许多社会神经科学研究中的大脑-人格相关性依赖于无效的方法，因此“高得令人难以置信”，“很可能是……虚假的”并且“不应被相信”。这些说法是不正确的。这些分析使用标准程序进行推断并防止误报。相关性估计值往往会略高于真实值，但没有证据表明这些相关性是毫无意义的或“巫毒”科学。

关于支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。

武尔及其同事在论文中提出的论点是，社会神经科学论文中观察到的相关性高得令人难以置信。有一个指标（两个变量的可靠性的乘积）决定了两个变量之间可以观察到的相关性有多高。他们认为，因为平均而言，该指标允许的相关性高达 0.74，所以社会神经科学家永远不应看到高于该值的相关性。

鉴于该主张的重要性，重要的是要弄清楚这个[数字]，但他们没有。这是他们的错误：决定研究中可以观察到什么结果的不是该指标的平均值，而是该特定研究的指标，或者至少是从该研究中实际使用的措施的先前使用中估计出的指标。仅仅因为超市中杂货的平均价格为 3 美元，并不意味着您找不到 12 美元的商品。事实上，我作为作者参与的一项研究（也是武尔等人论文的主要目标）就是一个完美的例子。我们研究中自我报告测量的可靠性远高于他们报告的平均值，从而允许更高的观察到的相关性。他们知道这个[事实]，但仍然将我们的研究描述为违反了“理论上限”。

他们的第二个主要概念点是，许多社会神经科学作者犯了非独立性错误。埃德·武尔在与[麻省理工学院神经科学家]南希·坎维什合作撰写的一章中给出了一个关于非独立性错误的很好的例子。他们认为，我们可能对心理学课程或社会学课程哪个更难感兴趣，并通过比较同时选修这两门课程的学生的成绩来评估这个[问题]。在对所有学生的比较中，我们发现分数没有差异。但是，如果我们首先只选择在心理学方面得分高于社会学的学生，然后对他们进行统计比较呢？如果我们使用该分析的结果来对这两门课程得出一般性推论，那么这种[策略]将是一个非独立性错误，因为测试样本的选择与正在测试的标准不是独立的。这种[做法]会严重偏倚结果。

尽管武尔绝对正确，这将会是一个重大错误，但他并没有描述我们实际所做的事情。武尔的例子假设我们感兴趣的问题是整个大脑如何与人格测量相关联，或者对两项任务的反应有何不同。继续使用成绩示例，社会神经科学家真正要做的是更接近于询问，“在全国所有大学中，是否有大学的心理学成绩高于社会学成绩？” 换句话说，问题不是所有学校的平均差异是多少，而是哪些学校显示出差异。询问这个问题或描述在出现显着效果的那些学校中发现的结果，没有任何不妥之处。

在 fMRI 的全脑分析中，我们也在做同样的事情。我们感兴趣的是大脑中哪些位置正在发生显着效应，当我们找到它们时，我们会用均值、相关性等来描述结果。我们没有随意挑选区域，然后声称这些区域代表整个大脑的效应。

武尔等人向大约 50 篇论文的作者发送了一份调查，以了解作者是否犯了非独立性错误，但他们从未告诉作者他们真正感兴趣的是什么，并且他们发送的问题实际上并未评估有关这些研究中使用的方法的正确信息。基于关于研究的错误信息，他们将一半的研究定性为犯了非独立性错误。我已经与几乎所有受到批评的研究的作者进行了联系，几乎所有人都说了类似的话。“我当然没有使用武尔等人描述的方法。谁会那样做呢？”

这就是问题所在。没有人进行武尔等人指责我们进行的分析。我们所做的是测试大脑中的数千个点（称为“体素”），以查看从一个受试者到另一个受试者的活动差异是否可靠地与人格测量（例如神经质）的差异相关。此程序完全有效。然后，在文章的表格（或图表或文本）中报告一部分被认为足够可靠以至于可以重复的测试。我想我们可以包含一个 200 页的表格，并报告大脑中每个体素的显着性，但每个人都理解我们报告最显着的激活，其余区域的结果不太显着（这是科学研究的标准报告程序）。您必须记住，我们的目标不是找到大脑中的平均效应，而是找到大脑中哪里发生了显着效应。我们使用的程序正是回答该问题的正确程序。

莱勒：他们提供了不同的证据来源（例如，模拟和已发表研究的分析）来阐明他们的观点。在您看来，证据有多令人信服？

利伯曼：武尔等人为他们的论点提供了一些证据，乍一看似乎很有说服力，但在仔细检查后却站不住脚。首先，他们包括一个模拟，以表明即使总体中的真实相关性为零，也可以观察到 fMRI 数据中高达 0.80 的相关性。这个[事实]对于行为科学家进行的每一项研究都是如此。总是存在一定的概率，无论多么小，观察到的结果都可能是由于偶然因素造成的。这就是 p 值评估的内容。

真正的问题是，当 fMRI 研究中的真实相关性为零时，在现实条件下，这种大的观察效应会发生多久。武尔等人在进行模拟时假设 fMRI 的样本量为 10 个受试者，但 fMRI 研究很少有这么小的样本量。事实上，在他们对社会神经科学 fMRI 研究的“荟萃分析”中，平均样本量超过 18 个。在我们的回复中，我们模拟了 10、15、18 和 20 个受试者的样本，并检查了当没有真实效应时，多长时间会观察到 0.80 的相关性。当样本为 10 时，至少在一个大型虚假相关性很可能发生在很大一部分模拟研究中。然而，当样本量增加到 18 个受试者时，只有一小部分模拟研究中存在虚假相关性。因此，虚假相关性可能会发生，但在典型的 fMRI 研究中，它们将很少见。

同样重要的是要记住，如果相关性是虚假的，那么它在大脑中的空间位置应该是随机的，但我们的相关性效应不是随机的。关于对疼痛的同情、对疼痛的恐惧以及被拒绝的社会痛苦的研究都表明，自我报告的测量与背侧前扣带皮层的活动之间存在相关性。这个区域与通过手术切除来治疗顽固性慢性疼痛的区域相同——绝非随机。

在您对埃德·武尔的采访中，我看到他认为，即使这些效应并非完全是虚假的，它们可能只占相对较小的方差百分比，因此在科学上没有那么有趣。首先，从争辩说这些是“虚假的和无效的”到承认它们“可能是有效的，但幅度不大”，这本身就是一个重大承认。

其次，如果我们采纳武尔关于小效应重要性的观点，有些人本来会死去的。检查阿司匹林对心脏病发作影响的最大研究在中途停止了，因为实验人员查看了数据，意识到阻止安慰剂对照组的受试者服用阿司匹林是不道德的。安慰剂组中死于心脏病发作的人数明显多于阿司匹林组，然而，该研究中的实验操作（阿司匹林与安慰剂）仅占结果方差的不到 1%。

那么，在全脑相关性分析中获得的 r 值中是否可能存在一些膨胀？当然，但我们早就知道这一点，大多数研究都对识别大脑中哪些位置正在发生有意义的关系感兴趣，而不是估计它们的精确幅度。报告的相关性是否被严重夸大？根据武尔等人调查的研究样本，可能不是。是否使用了无效的方法来测试有意义的相关性是否存在，因此值得贴上“巫毒”的标签？绝不可能。

莱勒：您认为这场争议对该领域产生了任何积极的好处吗，即使您强烈反对其发现？

利伯曼：答案是肯定的，但也值得花一点时间讨论潜在的危害。尽管武尔等人的新颖主张（高得令人难以置信的相关性、无效的方法）被证明是错误的，但这些主张有可能给该领域带来巨大的危害。资助机构和顶级期刊的人们正在怀疑他们是否应该继续支持这类工作。而且这种[影响]不仅涉及社会神经科学，因为任何阅读他们论文的人都可以认识到，武尔等人提出的问题，尽管不正确，但也同样适用于认知神经科学的所有领域。因此，即使该领域的人们认识到武尔等人论证的局限性，重新获得我们依赖于支持我们工作的人的信任可能仍然是一个挑战。这是一个众所周知的社会心理学事实，当某人被宣告无罪时，持久的联想是在该人与犯罪之间，而不是他们被宣告无罪的事实。

关于好消息。我认为这正在促使很多人更仔细地思考许多不同类型的分析。例如，武尔等人认可的许多“独立”相关性都存在偏差来源（范围限制），这会导致他们低估真实的相关值。有一个统计校正可以解决这个问题，我们已将其包含在我们的回复中。此外，我们在回复中进行的模拟结果对我们来说具有启发意义。基于我们和其他社会神经科学家通常分析数据的方式，该模拟表明我们真的应该以至少 18 个受试者的样本为目标，因为在这个大小下，误报的数量急剧下降（例如，当不存在真实相关性时，发现相关性 r=0.80）。当然，我们总是希望运行更大的样本，但影像学的费用非常高昂。

莱勒：您研究了不同类型悲伤背后的一些大脑差异，并且发现，矛盾的是，极度悲伤实际上以大脑中“奖励中心”的激活为特征。您能解释一下数据吗？这能教会我们关于悲伤的本质什么？

利伯曼：在这项由加州大学洛杉矶分校的玛丽-弗朗西斯·奥康纳领导的研究中，我们研究了两组母亲或姐妹在过去几年中死于乳腺癌的女性。一组经历了悲伤过程并相对正常地康复（正常悲伤），另一组被诊断患有“复杂性悲伤”，这意味着她们没有随着时间的推移而康复。两组人都看到了旨在提醒她们想起逝者的图像和文字（以及不相关的对照图像和文字）。两组都在我们先前在社会排斥期间观察到的疼痛网络中表现出活动。

然而，当我们比较这两组时，疼痛网络中的活动没有差异。相反，我们观察到复杂性悲伤受试者相对于正常悲伤受试者，奖励区域（腹侧纹状体）的活动更强。这是第一个发现这种效应的研究，因此任何解释都是初步的。然而，这种激活可能反映了对与逝者建立联系的渴望，就像成瘾者对药物的渴望一样。为此，我们发现同一“奖励”区域的活动与受试者告诉我们的他们对逝者的渴望程度显着相关。它还提醒我们，大脑奖励区域的活动可能并不总是意味着个体拥有更大的幸福感。事实上，从佛教的角度来看，这些依恋和渴望给我们带来的麻烦与我们都试图避免的更明显的负面事件一样多。

莱勒：您发现接受不公平提议的能力需要激活通常与自我控制相关的皮层区域。这能教会我们关于我们对公平的倾向什么？

我们不知道接受不公平的提议是否“需要”外侧前额叶激活，但当人们接受某种不公平的提议时，我们确实看到了这些激活。 [心理学家]艾伦·桑菲 [普林斯顿大学] 及其同事于 2003 年发表了关于最后通牒博弈的第一项 fMRI 研究。在这个游戏中，提议者决定如何在自己和回应者之间分配 10 美元，回应者决定是否接受。游戏有趣的部分是，如果回应者说不，双方都将一无所获。当提议者提供 5 美元时，这是一个平均分配，回应者几乎总是接受，但是当提议者提供 1 美元或 2 美元时，回应者经常会拒绝——即使提议者和回应者永远不会再次玩这个游戏，从而使声誉担忧变得无关紧要。桑菲发现，收到 10 美元中 1 美元和 2 美元的不公平提议的回应者，其脑岛活动更强，脑岛是一个与疼痛和内脏痛苦相关的边缘系统区域。此外，该区域的更高活动与拒绝“不公平”提议的更大倾向相关。

在我们实验室中，由戈尔纳兹·塔比布尼亚领导，我们进行了一项类似的研究，其中我们研究了两件事。首先，是否存在被公平对待的可观察到的效应，除了与公平相关的更高金钱回报之外？我们通过比较诸如 10 美元中的 5 美元的提议与诸如 23 美元中的 5 美元的提议来研究这一点。在这两种情况下，您都可以赚取 5 美元，但第一个提议比第二个提议公平得多。我们发现，当我们以这种方式将金钱方面排除在外时，我们仍然看到整个大脑的奖励网络中的活动，这与被公平对待有关。这个[发现]与最近的许多研究一致，这些研究表明来自他人的积极社会待遇会激活奖励区域。

因为我们包括了诸如 23 美元中的 5 美元的提议，我们还可以研究桑菲无法研究的新事物。这个提议是不公平的，但对于典型的大学本科生来说，这是一个经济上可取的命题（5 美元是大多数神经科学最后通牒博弈研究中的最高奖励）。拒绝 10 美元中的 1 美元很容易，但 23 美元中的 5 美元则另当别论。当人们接受这些不公平但可取的提议时，至少可能发生两件事。一方面，纯粹的奖励潜力可能具有很强的激励作用。在这种情况下，人们会期望在接受 23 美元中的 5 美元时，与拒绝这些提议相比，在奖励区域（如腹侧纹状体）中看到更多的活动。我们没有看到任何证据表明这一点。

另一方面，这可能是一个自我控制的案例，在这种情况下，人们可能会对自己说“这可能是一个侮辱性的提议，但如果我抵制报复的诱惑，我可以带着更多的钱离开”。尽管我们的数据无法确定受试者是否真的想到了类似的事情，但数据当然与这种过程相符。当人们接受这些提议时，我们看到右侧下前额叶皮层（一个参与各种形式的自我控制的区域）的活动增加，脑岛的活动减少，并且这些区域之间存在反比关系，即更大的前额叶活动与减少的脑岛活动相关。这个[发现]与人们正在调节他们的痛苦以实现长期经济利益的想法一致。一个有趣的含义是，它表明我们的冲动是拒绝不公平的待遇，而不是获得金钱，正是我们的认知能力导致我们接受而不是拒绝不公平的待遇并拿走金钱。

您是科学家吗？您最近是否阅读过一篇您想撰写的同行评审论文？那么请联系《心灵 Matters》编辑 乔纳·莱勒，他是博客额叶皮层和书籍普鲁斯特是神经科学家背后的科学作家。他的最新著作是 我们如何决定。