人脸图像一个接一个地出现在屏幕上,成百上千张。有些人的眼睛睁得大大的,有些人的嘴唇紧闭。有些人的眼睛紧闭,脸颊抬起,嘴巴张开。对于每张脸,你都必须回答这个简单的问题:这是一张正在经历性高潮还是突然疼痛的人的脸?
心理学家蕾切尔·杰克和她的同事招募了 80 人参加这项测试,作为 2018 年一项研究的一部分。这个来自英国格拉斯哥大学的团队招募了来自西方和东亚文化的参与者,以探索一个长期存在且备受争议的问题:面部表情是否可靠地传达情绪?
几十年来,研究人员一直在询问人们在面孔中感知到的情绪。他们调查了不同国家的成人和儿童,以及世界偏远地区的土著居民。美国心理学家保罗·埃克曼在 20 世纪 60 年代和 70 年代进行的有影响力的观察表明,在世界各地,人类可以可靠地从面部表情推断出情绪状态——这意味着情绪表达是普遍的。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
这些观点在很大程度上保持了几代人的不质疑。但新一代心理学家和认知科学家一直在重新审视这些数据,并质疑这些结论。现在许多研究人员认为,情况要复杂得多,而且面部表情在不同情境和文化之间差异很大。例如,杰克的研究发现,虽然西方人和东亚人在面部如何表现疼痛方面有相似的概念,但他们对快乐的表达方式却有不同的看法。
对于埃克曼结论的有效性,研究人员的意见分歧越来越大。但这场辩论并未阻止公司和政府接受他的观点,即面孔是情绪的预言家——并在以影响人们生活的方式使用它。例如,在西方的许多法律体系中,解读被告的情绪构成了公平审判的一部分。正如美国最高法院大法官安东尼·肯尼迪在 1992 年写道,这样做对于“了解罪犯的内心和思想”是必要的。
解码情绪也是埃克曼为美国运输安全管理局 (TSA) 设计并于 2007 年推出的一项有争议的培训计划的核心。该计划名为 SPOT(通过观察技术筛查乘客),旨在教导 TSA 人员如何监测乘客的数十种潜在可疑迹象,这些迹象可能表明压力、欺骗或恐惧。但它受到了科学家、美国国会议员以及美国公民自由联盟等组织的广泛批评,原因是不准确且带有种族偏见。
这些担忧并没有阻止领先的科技公司采纳情绪可以轻易被检测到的想法,一些公司已经创建了软件来做到这一点。这些系统正在试用或销售,用于评估求职者的适合性、检测谎言、使广告更具吸引力以及诊断从痴呆症到抑郁症的疾病。据估计,该行业的价值达数百亿美元。包括微软、IBM 和亚马逊在内的科技巨头,以及马萨诸塞州波士顿的 Affectiva 和佛罗里达州迈阿密的 NeuroData Lab 等更专业的公司,都提供旨在从人脸上检测情绪的算法。
由于研究人员仍在争论人们是否能够忠实地产生或感知情绪表达,该领域的许多人认为,让计算机自动执行此操作的努力为时过早——尤其是在这项技术可能产生破坏性影响的情况下。纽约大学的研究中心 AI Now Institute 甚至呼吁禁止在招聘或执法等敏感情况下使用情绪识别技术。
俄亥俄州立大学哥伦布分校研究该主题的阿列克斯·马丁内斯说,即使对人类来说,面部表情也极其难以解读。他说,考虑到这一点,以及自动化趋势,“我们应该非常担忧”。
肤浅的
人脸有 43 块肌肉,可以伸展、抬起和扭曲成数十种表情。尽管运动范围如此广泛,但科学家们长期以来一直认为,某些表情传达特定的情绪。
查尔斯·达尔文是推动这一观点的人之一。他 1859 年出版的《物种起源》一书是辛勤实地考察的结果,是观察方面的杰作。他的第二部最具影响力的著作《人和动物的情绪表达》(1872 年) 则更武断。
达尔文注意到,灵长类动物会做出看起来像人类情感表达的面部动作,例如厌恶或恐惧,并认为这些表情一定具有某种适应性功能。例如,卷起嘴唇、皱起鼻子和眯起眼睛——与厌恶相关的表情——可能最初是为了保护个体免受有害病原体的侵害。只有当社会行为开始发展时,这些面部表情才开始发挥更具沟通性的作用。
埃克曼在 20 世纪 60 年代进行的首次跨文化实地研究证实了这一假设。他在世界各地(包括新几内亚的一个偏远地区)测试了六种主要情绪——快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表达和感知。
埃克曼告诉《自然》杂志,他选择这六种表情是出于实际原因。他说,有些情绪,例如羞耻或内疚,没有明显的读数。“我关注的六种情绪确实有表情,这意味着它们适合研究。”
埃克曼说,早期的研究表明,达尔文进化论所预期的普遍性证据。后来的工作也支持了某些面部表情可能带来适应性优势的说法。

达尔文关于情绪的论文刊登了大量摆拍的表情,例如这些受试者尽力模仿悲伤。图片来源:阿拉米
东北大学波士顿分校研究情绪的心理学家莉萨·费尔德曼·巴雷特说:“长期以来的假设是,面部表情是强制性的动作。”换句话说,我们的脸无力隐藏我们的情绪。这种假设的明显问题是,人们可以伪装情绪,并且可以在不移动面部的情况下体验情感。埃克曼阵营的研究人员承认,每种情绪的预期“黄金标准”表情可能存在相当大的差异。
但是,越来越多的研究人员认为,这种差异非常广泛,以至于将黄金标准的概念拉伸到了崩溃的边缘。他们的观点得到了大量文献综述的支持。几年前,《公共利益心理科学》杂志的编辑们召集了一个意见不一的作者小组,要求他们回顾文献。
领导该团队的巴雷特说:“我们尽力抛开先验观念。”他们没有从假设开始,而是深入研究数据。“当出现分歧时,我们就扩大证据搜索范围。”他们最终阅读了大约 1,000 篇论文。经过两年半的时间,该团队得出了一个鲜明的结论:几乎没有证据表明人们可以可靠地从一组面部动作中推断出别人的情绪状态。

仅凭面部表情只能揭示关于情绪的少量信息。向下滚动以查看完整画面。图片来源:Lance King Getty Images、Hector Vivas Getty Images、Ronaldo Schemidt Getty Images 和 Robyn Beck Getty Images
该小组引用了一些极端的研究,这些研究发现面部动作与内在情绪状态之间没有明显的联系。英国莱斯特德蒙福特大学的心理学家卡洛斯·克里维利曾与巴布亚新几内亚特罗布里安群岛的居民合作,在他的研究中没有发现支持埃克曼结论的证据。克里维利总结说,试图从外部标记评估内在精神状态就像试图用米来测量质量。
缺乏普遍表情证据的另一个原因是,面部表情并非全貌。其他事物,包括身体动作、个性、语调和肤色变化,在我们感知和表达情绪方面起着重要作用。例如,情绪状态的变化会影响血液流动,进而改变皮肤外观。马丁内斯和他的同事已经表明,人们能够将肤色变化与情绪联系起来。视觉背景,例如背景场景,也可以提供有关某人情绪状态的线索。

顺时针方向,从左上角开始:篮球运动员锡安·威廉姆森庆祝扣篮;墨西哥球迷庆祝世界杯小组赛获胜;歌手阿黛尔在 2012 年格莱美奖上赢得年度专辑奖;贾斯汀·比伯的粉丝在墨西哥城的一场演唱会上哭泣。图片来源:Lance King Getty Images、Hector Vivas Getty Images、Ronaldo Schemidt Getty Images 和 Robyn Beck Getty Images
复杂的情绪
其他研究人员认为,对埃克曼研究结果的反击有点过分——尤其是埃克曼本人。2014 年,在回应巴雷特的批评时,他指出了一系列他认为支持他之前结论的研究,包括对人们自发做出的面部表情的研究,以及对表情与潜在的大脑和身体状态之间联系的研究。他写道,这项工作表明,面部表情不仅可以提供有关个人感受的信息,还可以提供有关神经生理激活模式的信息(参见go.nature.com/2pmrjkh)。他说,他的观点没有改变。
加拿大温哥华不列颠哥伦比亚大学的心理学家杰西卡·特雷西认为,那些根据少数反例得出埃克曼普遍性理论是错误的结论的研究人员夸大了他们的案例。她说,一个人口或文化对愤怒面孔的看法略有不同并不能推翻整个理论。她补充说,大多数人在看到愤怒的面孔时都能认出来,她引用了近 100 项研究的分析。“大量其他证据表明,世界各地大多数文化中的大多数人确实认为这种表情是普遍的。”
特雷西和其他三位心理学家认为,巴雷特的文献综述将他们的立场漫画化为六种情绪及其面部动作之间的僵化的一对一映射。“我不认识情感科学领域中有任何研究人员认为情况是这样的,”阿姆斯特丹大学的迪萨·索特说,她是该回复的合著者。
索特和特雷西认为,要理解面部表情,需要更丰富的情绪分类法。研究人员不应将幸福视为单一情绪,而应将情绪类别分解为各个组成部分;幸福的范畴涵盖快乐、愉悦、同情、骄傲等等。每种表情可能有所不同或重叠。
辩论的核心是什么算作重要。在一项研究中,参与者为他们看到的每张面孔选择六种情绪标签中的一种,一些研究人员可能认为,被选中超过 20% 的选项显示出显着的共性。另一些人可能认为 20% 远远不够。杰克认为,埃克曼的阈值太低了。她在读博士时阅读了他的早期论文。她说:“我不断地给我的导师看 20 世纪 60 年代和 70 年代的这些图表,每个图表都显示出文化识别方面的巨大差异。”“仍然没有数据表明情绪是普遍被识别的。”
撇开重要性不谈,研究人员还必须与主观性作斗争:许多研究依赖于实验者在测试开始时标记的情绪,以便可以比较最终结果。因此,巴雷特、杰克和其他人正在尝试寻找更中立的方法来研究情绪。巴雷特正在研究生理测量方法,希望提供愤怒、恐惧或快乐的替代指标。杰克没有使用摆拍的照片,而是使用计算机随机生成面部表情,以避免固执于常见的六种表情。其他人则要求参与者将面孔分组为他们认为捕捉情绪所需的尽可能多的类别,或者让来自不同文化的参与者用他们自己的语言标记图片。
计算机情感
软件公司往往不允许他们的算法有如此自由的关联范围。用于情绪检测的典型人工智能 (AI) 程序被输入数百万张面孔图像和数百小时的视频片段,在这些图像和视频片段中,每种情绪都已被标记,并且它可以从中识别模式。Affectiva 表示,它已使用来自 87 个国家/地区的 700 多万张面孔训练了其软件,这使其准确率达到 90% 的百分位数。该公司拒绝评论其算法背后的科学原理。Neurodata Lab 承认面部表情的情绪表达方式存在差异,但表示“当一个人处于情绪发作时,某些面部配置的出现频率高于偶然情况”,并且其算法考虑到了这种共性。然而,辩论双方的研究人员都对这类软件持怀疑态度,他们提到了用于训练算法的数据以及科学仍在争论中的事实。
埃克曼说,他已直接质疑了这些公司的说法。他给几家公司写了信——他不会透露是哪几家,只说“它们是世界上最大的软件公司之一”——要求查看证据,证明他们的自动化技术有效。他没有收到回复。“据我所知,他们正在为没有证据支持的事情提出主张,”他说。
马丁内斯承认,自动化情绪检测可能能够说明一个群体的平均情绪反应。例如,Affectiva 向营销机构和品牌销售软件,以帮助预测客户群可能对产品或营销活动做出何种反应。
如果该软件犯了错误,风险很低——广告可能不如预期的那么有效。但有些算法正被用于可能对人们的生活产生重大影响的过程中,例如在求职面试和边境。去年,匈牙利、拉脱维亚和希腊试用了一个用于预先筛选旅客的系统,该系统旨在通过分析面部的微表情来检测欺骗行为。
解决情绪表达的争论将需要不同类型的调查。经常被邀请向科技公司介绍其研究成果的巴雷特——本月访问了微软——认为研究人员需要做达尔文为《物种起源》所做的事情:“观察,观察,观察。”观察人们在现实生活中实际如何使用他们的面部表情和身体——而不仅仅是在实验室中。然后使用机器记录和分析真实世界的镜头。
巴雷特认为,更多的数据和分析技术可以帮助研究人员学习新事物,而不是重新审视疲惫的数据集和实验。她向渴望利用她和许多其他人越来越认为是不牢靠的科学技术的科技公司发起了挑战。“我们真的正处于这个悬崖边,”她说。“人工智能公司是会继续使用有缺陷的假设,还是会去做需要做的事情?”
本文经许可转载,并于 2020 年 2 月 26 日首次发表。