在19世纪,法国临床医生纪尧姆-本杰明-阿芒·杜钦提出,人类普遍使用面部肌肉做出至少60种不同的表情,每种表情都反映了60种特定情绪之一。查尔斯·达尔文对这个数字持怀疑态度,他致力于探索面部表情的普遍性,以此作为人类共同进化历史的证据。他最终写了一本关于人类表情的书,倾向于认为至少有一些表情在所有文化中都是共通的。
自从该领域的早期尝试以来,关于我们所做的某些面孔是否为我们所有人所共有,以及如果是,有多少是共通的,争论一直很激烈。杜钦确定了60种,而从1970年代开始,心理学家保罗·埃克曼最著名地描述了六种(厌恶、悲伤、快乐、恐惧、愤怒、惊讶),这种构建在几十年里一直占据主导地位。
一项于12月16日发表在《自然》杂志上的新研究更进一步,并得出了另一种普遍面部表情的统计结果,这次是基于数百万张动态图像,而不是早期研究中使用的小量静态照片。作者使用人类对186,744个视频的评级,这些视频显示人们在不同情况下的反应,训练了一个神经网络,以从情绪标签列表(例如敬畏、困惑和愤怒)中标记面部表情。通过这种训练,神经网络评估了来自144个国家/地区的六百万个视频,并将相似的面部表情与全球12个地区的相似社会背景持续关联起来。例如,被标记为“胜利”的面部反应通常与体育赛事相关联,而与地理区域无关,这表明在这种背景下存在普遍的反应。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续刊登关于发现和塑造我们当今世界的想法的有影响力的故事。
尽管结果暗示我们在某些情况下移动面部的方式可能在不同文化中是共通的,但它们并未解决这些表情是否准确地表达了情绪的内在体验。许多因素可能影响了结果:机器学习的局限性,仅使用印度以英语为母语的评分员来训练算法,以及对发现的一些潜在误解都引起了关注。
东北大学教授兼心理学家丽莎·费尔德曼·巴雷特说,使用视频并考虑情境对于该领域来说“绝对是向前迈进了一步”,她撰写了一篇随附的评论,评论该研究。“他们提出的问题直接触及了情绪的本质,”她评论道。但是,存在这种信息可能被用来评判他人的风险,“这将是不成熟的,因为有多种方式可以解释这些结果。”
该研究的第一作者,加州大学伯克利分校的研究员兼谷歌的访问研究员艾伦·考恩对此表示赞同,他说,使用机器学习研究情绪生理学才刚刚开始。“当然,现在还处于早期阶段,这还很幼稚,”他说。“我们只关注机器学习是否以及如何帮助研究人员回答关于人类情感的重要问题。”
在这种情况下进行学习的机器是深度神经网络,它接受输入(例如视频剪辑),并通过多个层对其进行解析,以预测输入材料包含的内容。在本例中,神经网络跟踪视频中面部的运动,并标记不同社交场合的面部表情。但首先,它必须学习应用人类评分员与特定面部配置相关的各种标签。
为了训练网络,考恩和他的同事需要一个由人类观看者评分的大型视频库。印度的一组以英语为母语的评分员完成了这项任务,对186,744个时长为一到三秒的YouTube视频剪辑进行了273,599次评分。研究团队使用结果训练神经网络,以将面部运动模式分类为16个与情绪相关的标签之一,例如痛苦、怀疑或惊讶。
然后,科学家们让另一个神经网络分析来自144个国家/地区的300万个视频中的视觉线索,为每个视频分配一个社交背景,从婚礼到举重到观看烟花,最终表征了653种情境。
然后,他们在这些300万个视频上测试了面部表情网络,评估了在相似的社交情境中(例如看到玩具时的“喜悦”)分配特定面部表情标签的一致性。结果显示,全球12个地区都存在相似的关联模式。例如,无论地区如何,神经网络都倾向于将标记为“滑稽”的面部表情与标记为“恶作剧”的情境最常关联起来,而“痛苦”表情标签始终与不舒服的情境(例如举重)相关联。
为了排除这300万个视频中的面孔对社交情境分配的影响,研究人员让另一个网络仅使用标签和视频随附描述中的词语来分配情境。该网络处理了另外300万个视频,并分配了1,953种社交情境。当面部表情网络将16个标签应用于这些视频时,面部表情标签与视频情境分配之间存在相似但稍微较弱的一致性。考恩说,这种结果是预期的,因为来自语言的情境远不如基于视频的情境分配准确,“这开始说明当你过度依赖语言时会发生什么。”
当他们比较各个地区的结果时,考恩和他的同事发现,在地理位置相邻的地区,共享的相似性更高,尽管存在一些地区差异。非洲在表情-情境关联方面与附近的近东地区最相似,而与较远的印度不太相似。
然而,考恩说,平均而言,每个单独的地区都与所有12个地区的平均水平相似——通常比与其任何直接邻居都更相似。
皮茨堡大学心理学教授杰弗里·科恩也对该论文进行了同行评审,他断言,需要注意的是,这些面部表情并未提供情绪或意图的解读。“它们在情境中相关,但这与推断任何特定表情的含义相去甚远。面部表情和情绪之间没有一对一的映射关系。”
考恩证实,“我们不知道某人的感受是基于他们的面部肌肉运动,我们也没有声称要推断这一点。” 例如,“在一种文化与另一种文化中的体育赛事中使用相同的面部表情可能与更积极或更消极的情绪体验相关联。”
巴雷特承认,机器学习是一种强大的技术,但必须谨慎使用。“您必须小心不要将人类评分员的信念编码到这些模型中,以及信念将在何处影响训练,”她说。“无论建模多么花哨,它都无法保护您免受人类推理参与其中时潜入的弱点的影响。” 她指出,例如,用于训练面部表情算法的视频的人类评分员都来自同一文化和地区,并且被限制使用他们自己就是情绪词汇的标签列表,例如“愤怒”,而不是诸如“皱眉”之类的描述。
科罗拉多大学博尔德分校信息科学助理教授凯西·菲斯勒没有参与这项工作,她对作者用于评估种族因素影响的四类种族的应用可能产生的偏见表示担忧。“例如,有大量文献谈到,在判断不同种族的人的面部表情时,存在内隐偏见,”她指出。
密歇根大学信息科学学院助理教授纳扎宁·安达利比说,以错误的方式使用时,关于面部表情普遍性的假设可能会对边缘化或经济上弱势群体造成伤害。她举例说明了早期面部识别应用,她说,“无论一个人微笑多少,某些算法仍然会将负面情绪与黑人面孔联系起来,因此存在许多个人层面的危害。”
科恩说,该技术也提供了一些潜在的好处,例如识别有自杀风险的人的面部表情线索。他补充说,这项工作中情境的相关性是朝着这个方向迈出的重要一步。“我不是说我们可以走上街头并检测某人是否患有抑郁症,”科恩说,“但在临床访谈等特定情境中,我们可以衡量抑郁症的严重程度。”
未来努力使用该技术——用于预防自杀或其他用途——需要关注当算法对人做出判断时可能出现的各种现实世界中的陷阱。“机器学习技术很酷且非常有用,但它们不是灵丹妙药,”巴雷特说。“这不仅仅是学院围墙内或谷歌围墙内的一种深奥的辩论。”