大脑如何识别面孔

处理面孔的大脑区域揭示了视觉神经机制的深刻见解

Brian Stauffer

我还在上高中的时候,在微积分入门课程中,有一天我学到了曲线的密度。 模拟捕食者和猎物之间相互作用的一对简单微分方程可以产生无数条闭合曲线——想象一下同心圆,一个嵌套在另一个之内,就像靶心一样。 更重要的是,这些曲线的密度随其位置而变化。

最后一个事实对我来说似乎很奇怪。 我很容易想象有限数量的曲线靠近或拉开。 但是,无限数量的曲线怎么可能在一个区域更密集而在另一个区域更稀疏呢? 我很快了解到,存在着具有悖论性质的不同类型的无穷大,例如希尔伯特旅馆(房间总是订满,但总能容纳新客人)和巴拿赫-塔斯基苹果(可以分成五块并重新排列以制作成两个与原始苹果体积相同的苹果)。 我花了几个小时仔细研究这些数学证明。 最终,它们给我的印象是毫无实际意义的象征性魔法,但兴趣的种子已经扎根。

后来,在加州理工学院读本科时,我了解到了 David Hubel 和 Torsten Wiesel 的实验,以及他们具有里程碑意义的发现,即大脑中称为初级视觉皮层的区域如何从眼睛传递的图像中提取边缘。 我意识到,高中时让我感到困惑的是试图想象不同密度的无穷大。 与我在高中时研究的数学技巧不同,Hubel 和 Wiesel 描述的边缘是由神经元处理的,因此它们实际上存在于大脑中。 我逐渐认识到,视觉神经科学是理解这种神经活动如何产生对曲线的意识感知的一种方式。


关于支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。 通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


这种认识引发的兴奋感难以形容。 我相信在人生的每个阶段,人们都有责任。 而大学生的责任是去梦想,去找到能够抓住自己的心并值得为之奉献一生的事物。 事实上,这是科学中最重要的一步:找到正确的问题。 我被理解视觉的挑战所吸引,并开始探索大脑中的电活动模式如何能够编码对视觉物体的感知——不仅是线条和曲线,甚至是像面孔这样难以定义的物体。 实现这一目标需要查明专门用于面部识别的特定大脑区域,并破译其底层的神经代码——即电脉冲模式使我们能够识别周围人的方式。

发现之旅始于哈佛大学的研究生院,我在那里研究立体视觉,即深度感知从双眼图像之间的差异中产生的机制。 有一天,我偶然看到神经科学家 Nancy Kanwisher(现就职于麻省理工学院)及其同事的一篇论文,报告称他们在人脑中发现了一个区域,当一个人在功能性磁共振成像 (fMRI) 脑部扫描仪内时,该区域对面孔图片的反应远强于对任何其他物体图像的反应。 这篇论文似乎很奇怪。 我习惯于大脑由诸如“基底神经节”和“眶额皮层”之类的部分组成,这些部分具有一些模糊的目的,人们只能开始理解。 专门用于处理面孔的区域的概念似乎太容易理解,因此是不可能的。 任何人都可以对人脸区域的功能做出合理的推测——它可能应该代表我们认识的所有不同的人脸以及关于他们的表情和性别的一些信息。

作为一名研究生,我曾在猴子身上使用 fMRI 来识别由图像中三维感知激活的区域。 我决定向猴子展示面孔和其他物体的图片。 当我比较猴子大脑对面孔的反应与对其他物体的反应的激活时,我发现颞叶(太阳穴下方的区域)中有几个区域选择性地对面孔亮起——特别是在一个称为颞下 (IT) 皮层的区域。 物体视觉领域的先驱 Charles Gross 在 1970 年代初期在猕猴的 IT 皮层中发现了面孔选择性神经元。 但他报告说,这些细胞随机分散在整个 IT 皮层中。 我们的 fMRI 结果首次表明面孔细胞可能集中在定义的区域。

面孔补丁

在发表我的工作后,我被邀请做一次演讲,将 fMRI 研究描述为加州理工学院教职职位的候选人,但我没有得到这份工作。 许多人对 fMRI 的价值持怀疑态度,fMRI 测量的是局部血流,即大脑的管道系统。 他们认为,当受试者看着面孔时,显示大脑区域血流量增加远未澄清该区域的神经元实际编码的内容,因为血流量和电活动之间的关系尚不清楚。 也许偶然的是,这些面孔补丁仅仅包含稍微多一些对面孔有反应的神经元,就像海面上随机聚集的冰山一样。

因为我已经在猴子身上做了成像实验,所以我可以直接通过将电极插入 fMRI 识别的面孔区域并询问:什么图像最强烈地驱动该区域的单个神经元?来解决这个担忧。 我与 Winrich Freiwald 一起进行了这项实验,当时他是玛格丽特·利文斯通在哈佛大学实验室的博士后研究员,我在那里是一名研究生。 我们向猴子展示面孔和其他物体,同时放大电极记录的单个神经元的电活动。 为了实时监测反应,我们将神经元的电信号转换为音频信号,我们可以在实验室的扬声器中听到。

这个实验揭示了一个惊人的结果:通过 fMRI 识别的区域中几乎每个细胞都专门用于处理面孔。 我可以回忆起我们第一次记录时的兴奋,听到一个又一个细胞“砰”的一声,对面孔反应强烈,而对其他物体的反应却很小。 我们感觉到我们正在研究一些重要的东西,一块可以揭示大脑视觉物体高级代码的皮层。 Marge 评论面孔补丁时说:“你找到了一个金蛋。”

我还记得在第一次实验中感到惊讶。 我曾期望面孔区域会包含对特定个体选择性反应的细胞,类似于初级视觉皮层中每个细胞都对特定边缘方向做出反应的方向选择性细胞。 事实上,许多广为人知的研究表明,单个神经元可能对熟悉的人的面孔具有显着的选择性——例如,仅对詹妮弗·安妮斯顿做出反应。 与我的预期相反,每个细胞似乎对几乎任何面孔都强烈放电。

在早期的这些实验中,我疯狂地使用 Photoshop,发现细胞不仅对人类和猴子的面孔有反应,甚至对高度简化的卡通面孔也有反应。

观察到这种现象后,我决定创建具有 19 种不同特征的卡通面孔,这些特征似乎与定义面孔的身份有关,包括眼间距、面部纵横比和嘴巴高度等特征。 然后我们继续改变这些值——例如,眼间距从几乎是独眼巨人到刚好在面部边界内不等。 单个细胞对大多数面孔都有反应,但有趣的是,并非总是对所有面孔都表现出完全相同的放电率。 相反,它们的反应存在系统的变化:当我们绘制不同卡通特征的细胞放电时,我们发现一种模式,其中对一种特征极端(例如最小的眼间距)的反应最小,而对相反的极端(最大的眼睛分离)的反应最大,对中间的特征值的反应是中间的。 作为每个特征值的函数的响应看起来像一个斜坡,一条向上或向下倾斜的线。

再一次,我被邀请在加州理工学院做一次工作演讲。 回来后,我可以提供的不仅仅是 fMRI 图像。 加上来自单细胞记录的新结果,每个人都清楚地认识到这些面孔补丁是真实存在的,并且可能在面部识别中发挥重要作用。 此外,理解它们底层的神经过程似乎是解决大脑如何表示视觉物体这一普遍问题的有效途径。 这次我得到了这份工作。

对比是关键

在加州理工学院,我和我的同事们深入研究了这些细胞如何检测面孔的问题。 我们从麻省理工学院的视觉和计算神经科学家 Pawan Sinha 的一篇论文中获得灵感,该论文提出,可以根据面部不同区域之间的特定对比关系来辨别面孔——例如,额头区域是否比嘴巴区域更亮。 Sinha 提出了一种巧妙的方法来确定哪些对比关系可以用来识别人脸:它们应该是那些不受光照变化影响的关系。 例如,“左眼比鼻子暗”是检测面孔的有用特征,因为无论从上方、左侧、右侧还是下方拍摄面孔,都没有关系:左眼总是比鼻子暗(自己检查一下)。

从理论角度来看,这个想法为面部识别提供了一种简单、优雅的计算机制,我们想知道面孔细胞是否可能正在使用它。 当我们测量细胞对面部不同区域亮度不同的面孔的反应时,我们发现细胞通常对图像中的特定对比特征有明显的偏好。

图片来源:Body Scientific(大脑); 来源:“猕猴面孔处理系统内的功能区隔化和视点泛化”,Winrich A. Freiwald 和 Doris Y. Tsao,发表于Science,第 330 卷; 2010 年 11 月 5 日(数据网格和照片插页

令我们惊讶的是,几乎所有细胞的对比度偏好都完全一致——只发现一个细胞偏好相反的极性。 此外,首选特征正是 Sinha 确定的那些不易受光照变化影响的特征。 因此,该实验证实,面孔细胞使用对比关系来检测面孔。

更广泛地说,结果证实这些细胞确实是面孔细胞。 在演讲中,怀疑论者会问,你怎么知道? 你无法测试每一种可能的刺激。 你怎么能确定它是面孔细胞而不是石榴细胞或割草机细胞? 这个结果让我信服了。 细胞对面部不同部位之间对比度变化的反应方式与 Sinha 的计算预测之间的精确匹配是不可思议的。

我们最初的实验揭示了两个附近的面孔皮质补丁,它们对面孔亮起。 但在进一步扫描(在对比剂的帮助下,对比剂使信号的稳健性提高了数倍)之后,很明显,实际上每个大脑半球都有六个面孔补丁(总共十二个金蛋)。 它们分布在整个颞叶的长度上。 而且,这六个补丁并非随机分散在整个 IT 皮层中。 它们位于每只动物半球的相似位置。 我们小组和其他人的工作发现,人类和其他灵长类动物(如狨猴)的 IT 皮层中也存在类似的多个面孔补丁模式。

对刻板模式的这种观察表明,这些补丁可能构成一种用于处理面孔的装配线。 如果是这样,人们会期望这六个补丁彼此连接,并且每个补丁都具有不同的功能。

为了探索补丁之间的神经连接,当猴子在 fMRI 扫描仪内时,我们用微小的电流电刺激不同的补丁——一种称为微刺激的技术。 目的是找出当特定面孔补丁受到刺激时,大脑的其他哪些部分会亮起。 我们发现,每当我们刺激一个面孔补丁时,其他补丁都会亮起,但周围的皮层不会,这表明面孔补丁确实是强烈互连的。 此外,我们发现每个补丁都执行不同的功能。 我们向猴子展示了 25 人的照片,每个人都有八种不同的头部方向,并记录了来自三个区域的细胞的反应:中间外侧和中间穹窿补丁 (ML/MF)、前外侧补丁 (AL) 和前内侧补丁 (AM)。

图片来源:Jen Christiansen(图表); 来源:“灵长类动物大脑中面部身份的代码”,Le Chang 和 Doris Y. Tsao,发表于Cell,第 169 卷,第 6 期; 2017 年 6 月 1 日(面部图像

我们发现这些区域之间存在显着差异。 在 ML/MF 中,细胞选择性地对特定视图做出反应。 例如,一个细胞可能更喜欢直视前方的面孔,而另一个细胞可能更喜欢看向左侧的面孔。 在 AL 中,细胞的视图特异性较低。 一类细胞对向上、向下和直视前方的面孔做出反应; 另一类细胞对看向左侧或右侧的面孔做出反应。 在 AM 中,细胞对特定个体做出反应,而不管面孔的视图是正面还是侧面。 因此,在 AM 网络末端,特定于视图的表示已成功缝合为与视图无关的表示。

显然,面孔补丁确实像一条装配线一样运作,以解决视觉的重大挑战之一:如何在周围事物的外观发生变化时识别它们。 汽车可以有任何品牌和颜色,以任何视角和距离出现,并且可能被树木或其他汽车等较近的物体部分遮挡。 尽管存在这些视觉转换,但识别物体被称为不变性问题,我们清楚地认识到,面孔补丁网络的主要功能是克服这一障碍。

鉴于面孔补丁中的细胞对人脸身份变化的巨大敏感性,人们可能会期望改变这些细胞的反应应该会改变动物对人脸身份的感知。 斯坦福大学的神经科学家 Josef Parvizi 和 Kalanit Grill-Spector 对植入电极的人类受试者的大脑中的面孔补丁区域进行了电刺激,目的是确定癫痫发作的来源,并发现刺激扭曲了受试者对面孔的感知。

我们想知道,当我们刺激猴子的面孔补丁时,是否会在猴子身上发现同样的效果。 这样做只会改变对面孔的感知,还是也会影响对其他物体的感知? 面孔和非面孔物体之间的界限是流动的——如果受到提示,人们可以在云朵或电源插座中看到面孔。 我们想使用电微刺激作为一种工具来精确描绘对于面孔补丁而言什么构成面孔。 我们训练猴子报告顺序呈现的两个面孔是相同还是不同。 与早期在人类身上获得的结果一致,我们发现面孔补丁的微刺激强烈扭曲了感知,以至于动物总是将两个相同的面孔标记为不同的面孔。

有趣的是,微刺激对许多非面孔物体的感知没有影响,但它确实显着影响了对一些形状与面孔一致的物体的反应——例如苹果。 但是,为什么这种刺激会影响对苹果的感知呢?

一种可能性是,面孔补丁通常不仅用于表示面孔,还用于表示其他圆形物体,如苹果。 另一种假设是,面孔补丁通常不用于表示这些物体,但刺激会诱导苹果看起来像面孔。 面孔补丁是否可用于检测任何非面孔物体仍不清楚。

破解密码

揭示面孔补丁系统的组织结构和内部细胞的特性是一项重大成就。 但当我们第一次开始从面孔补丁中记录时,我的梦想是取得更大的成就。 我预感到这些细胞将使我们能够破解面部身份的神经代码。 这意味着要理解单个神经元如何在细节层面上处理面孔,从而使我们能够预测细胞对任何给定面孔的反应,或者仅根据神经活动解码任意面孔的身份。

中心挑战是找出一种以高精度定量描述面孔的方法。 Le Chang,当时是我实验室的博士后,他敏锐地洞察到可以采用计算机视觉领域的一种称为主动外观模型的技术。 在这种方法中,一张脸有两组描述符,一组用于形状,另一组用于外观。 将形状特征视为骨架定义的特征——头部有多宽或眼睛之间的距离。 外观特征定义了面部的表面纹理(肤色、眼睛或头发颜色等等)。

图片来源:Jen Christiansen(图表); 来源:“灵长类动物大脑中面部身份的代码”,Le Chang 和 Doris Y. Tsao,发表于Cell,第 169 卷,第 6 期; 2017 年 6 月 1 日(面部网格

为了生成面孔的这些形状和外观描述符,我们从一个大型人脸图像数据库开始。 对于每个人脸,我们在关键特征上放置了一组标记。 这些标记的空间位置描述了面部的形状。 从这些不同的形状中,我们计算出一个平均面孔。 然后,我们对数据库中的每个人脸图像进行变形,使其关键特征与平均面孔的关键特征完全匹配。 生成的图像构成了独立于形状的面孔外观。

然后,我们对整个人脸集中的形状和外观描述符分别进行了主成分分析。 这是一种数学技术,用于查找复杂数据集中变化最大的维度。

通过取形状的前 25 个主成分和外观的前 25 个主成分,我们创建了一个 50 维的人脸空间。 这个空间类似于我们熟悉的 3-D 空间,但每个点代表一张脸而不是一个空间位置,并且它包含的维度远不止三个。 对于 3-D 空间,任何点都可以用三个坐标 (x,y,z) 来描述。 对于 50-D 人脸空间,任何点都可以用 50 个坐标来描述。

图片来源:Jen Christiansen(图表); Doris Y. Tsao(面部图像

在我们的实验中,我们随机抽取了 2,000 张面孔,并在从两个面孔补丁记录细胞的同时将其呈现给猴子。 我们发现,几乎每个细胞都对 50 个特征的子集表现出分级反应——类似于向上或向下倾斜的斜坡——这与我早期使用卡通面孔进行的实验一致。 但我们对为什么这很重要有了新的认识。 如果面孔细胞对不同特征具有斜坡形调谐,则其反应可以通过面部特征的简单加权和来粗略近似,权重由斜坡形调谐函数的斜率确定。 换句话说

面孔细胞的反应 = 权重矩阵 × 50 个面部特征

然后,我们可以简单地反转这个方程,将其转换为一种形式,使我们能够根据面孔细胞的反应预测正在显示的面孔

50 个面部特征 = (1/权重矩阵) × 面孔细胞的反应

起初,这个方程对我们来说似乎简单得令人难以置信。 为了测试它,我们使用了对 2,000 张面孔中除一张以外的所有面孔的反应来学习权重矩阵,然后尝试预测排除的面孔的 50 个面部特征。 令人惊讶的是,预测结果与实际面孔几乎没有区别。

双赢的赌注

在瑞士阿斯科纳的一次会议上,我介绍了我们使用神经活动重建面孔的发现。 在我的演讲之后,英国莱斯特大学的 Rodrigo Quian Quiroga(他与同事于 2005 年在人类内侧颞叶发现了所谓的詹妮弗·安妮斯顿细胞)问我,我的细胞与他的概念(单个神经元对特定人的面孔做出反应)有何关系。 詹妮弗·安妮斯顿细胞,也称为祖母细胞,是一种假定的神经元类型,它在响应可识别的人(名人或近亲)的面孔时会开启。

我告诉 Rodrigo,我认为我们的细胞可以成为他的细胞的构建块,但我没有深入思考这会如何运作。 那天晚上,由于时差反应而失眠,我认识到我们的面孔细胞和他的细胞之间存在重大差异。 我在演讲中描述了我们的面孔细胞如何计算它们对不同面部特征的加权和的反应。 在半夜,我意识到这种计算与称为点积的数学运算相同,其几何表示是将向量投影到轴上(就像太阳将旗杆的阴影投影到地面上一样)。

回想起我的高中线性代数,我意识到这意味着我们应该能够为每个细胞构建一个大的“零空间”面孔——一系列身份各异的面孔,它们位于垂直于投影轴的轴上。 此外,所有这些面孔都会导致细胞以完全相同的方式放电。

反过来,这将表明面孔补丁中的细胞与祖母细胞根本不同。 这将打破每个人都对人脸细胞的模糊直觉——即它们应该被调整为特定的面孔。

第二天早上 5 点,我是会议早餐大厅里的第一个人,并希望找到 Rodrigo,以便我可以告诉他这个违反直觉的预测。 令人惊讶的是,当他终于出现时,他告诉我他也有完全相同的想法。 因此我们打了个赌,Rodrigo 允许以一种对我来说是双赢的方式来确定条款。 如果每个细胞真的对不同的面孔表现出相同的反应,那么我将送给 Rodrigo 一瓶昂贵的葡萄酒。 另一方面,如果预测没有实现,他将送给我安慰酒。

为了在我们在加州理工学院的实验室中寻找答案,Le Chang 首先使用对 2,000 张面孔的反应绘制了给定细胞的首选轴。 然后,他在仍然从同一细胞记录的情况下,生成了一系列面孔,所有这些面孔都可以放置在垂直于细胞首选轴的轴上。 值得注意的是,所有这些面孔都在细胞中引起了完全相同的反应。 下周,Rodrigo 收到了一瓶精美的赤霞珠。

这一发现证明,面孔细胞并没有在 IT 皮层中编码特定个体的身份。 相反,它们正在执行轴投影,这是一种更加抽象的计算。

可以类比颜色。 颜色可以用特定的名称来编码,例如长春花色、白屈菜色和天蓝色。 或者,人们可以用代表构成该颜色的红色、绿色和蓝色量的三个简单数字的特定组合来编码颜色。 在后一种方案中,对红色轴执行投影的颜色细胞将发出与任何颜色中的红色量成比例的电脉冲或尖峰。 这样的细胞对于含有相同量的红色与其他颜色混合的棕色或黄色会以相同的强度放电。 面孔细胞使用相同的方案,但不是只有三个轴,而是有 50 个。 而且,每个轴编码的不是红色、绿色或蓝色的量,而是每个轴编码任何给定面孔的形状或外观与平均面孔的偏差量。

这样看来,詹妮弗·安妮斯顿细胞似乎不存在,至少在 IT 皮层中不存在。 但是,对特定熟悉个体做出选择性反应的单个神经元可能仍然在大脑中处理面孔细胞输出的部分发挥作用。 记忆存储区域——海马体和周围区域——可能包含有助于人们根据过去的经验识别某人的细胞,类似于祖母细胞。

因此,IT 皮层中的面部识别依赖于总共约 50 个数字的集合,这些数字表示沿着一组轴对面孔的测量。 并且,发现这种极其简单的面部身份代码对我们理解视觉物体表示具有重大意义。 IT 皮层的所有部分都可能按照控制面孔补丁系统的相同原则组织起来,神经元簇编码不同的轴集来表示物体。 我们现在正在进行实验来验证这个想法。

神经罗塞塔石碑

如果您去过大英博物馆,您会看到一件令人惊叹的文物,罗塞塔石碑,上面用三种不同的语言刻着孟菲斯的同一法令:埃及象形文字、世俗体和古希腊语。 因为语文学家懂古希腊语,他们可以使用罗塞塔石碑来帮助破译埃及象形文字和世俗体。 同样,面孔、面孔补丁和 IT 皮层构成了一块神经罗塞塔石碑——一块仍在破译中的石碑。 通过向猴子展示面孔图片,我们发现了面孔补丁,并了解了这些补丁内的细胞如何检测和识别面孔。 反过来,理解面孔补丁网络中的编码原则可能有一天会让我们深入了解整个 IT 皮层的组织结构,揭示更普遍的对象身份编码方式的秘密。 也许 IT 皮层包含专门用于处理其他类型物体的额外网络——一个拥有多条装配线的呼呼作响的工厂。

我也希望了解面部身份的代码可以帮助我实现我大学时的梦想,即发现我们如何想象曲线。 既然我们了解了面孔补丁,我们就可以开始训练动物想象面孔,并探索神经活动如何被纯粹的内部想象行为所塑造。 出现了许多新问题。 想象力是否会重新激活面孔补丁中想象的面孔的代码? 它是否会带回甚至更早的轮廓和阴影表示,这些表示为面孔补丁系统提供输入? 我们现在拥有探索这些问题的工具,并更好地了解大脑如何看待物体,无论是想象的还是真实的。

由于几乎所有大脑的核心行为——意识、视觉记忆、决策、语言——都需要物体交互,因此深入理解物体感知将有助于我们深入了解整个大脑,而不仅仅是视觉皮层。 我们才刚刚开始解开面孔之谜。

Doris Y. Tsao 是加州大学伯克利分校海伦·威尔斯神经科学研究所的生物学教授,也是霍华德·休斯医学研究所的研究员。 2018 年,她被任命为麦克阿瑟研究员。

更多作者:Doris Y. Tsao
大众科学 Magazine Vol 320 Issue 2这篇文章最初以标题“Face Values”发表于《大众科学》杂志 第 320 卷第 2 期(),第 22 页
doi:10.1038/scientificamerican0219-22
© . All rights reserved.