本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
看看上面的照片。你认为这位年轻女士感到惊讶吗?你可能错了。面部表情所代表的情绪不仅取决于面部本身,还取决于表情所处的背景。
我们都记得“那条裙子”。像这样的错觉表明,即使是像颜色感知这样基本的现象也可能是模棱两可的。情绪比颜色复杂得多,因此可能导致更多的困惑。我们对情绪表达的感知不仅与面部的物理属性有关,还与影响感知者(例如,一个人的过去经验、文化背景或个人期望)和情境本身(背景)的一系列其他因素有关。
为了验证这个想法,Neurodata Lab的研究人员创建了一个简短的测试,并邀请来自29个国家的1400多人观看四对照片,总共八张。每对照片的第一张显示了一位女性的某种面部表情。第二张与第一张相同,只是在上面添加了一个物体:睫毛膏刷、书和眼镜、牙签或吉他。这些物体增加了背景。然后人们必须查看每张图像,并指出面部表情对他们来说是否看起来是情绪化的。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的有影响力的故事的未来。

图片来源:Neurodata Lab, LLC。
带有附加物体的照片和没有附加物体的照片之间的反应差异很大。平均而言,人们回应说,在大多数没有任何额外背景的图像中,面部表情是“情绪化的”(在四张照片中占3.52张)。添加物体后,受试者经常改变他们的看法,而是回应说,只有大约四分之一的照片中存在情绪(准确地说,是四分之一照片中的1.2张)。
换句话说,结果表明,在超过60%的情况下,添加物体改变了人们对照片中情绪表达的感知方式。

图片来源:Neurodata Lab, LLC

图片来源:Neurodata Lab, LLC
为什么差异如此显著?
情绪感知在最广泛的意义上取决于背景。我们非语言表达自己的方式受到一系列因素的影响,例如年龄、性别、社会或文化方面的个体差异,以及各种情境因素的差异。
人类自然会寻求一个通用的公式,一个一刀切的解释来解释他们周围发生的事情。情绪也不例外,在1970年代,美国心理学家保罗·埃克曼提出了他的情绪普遍性概念,指出所有地方的所有人类都体验到六种基本情绪,并且他们以相同的方式表达这些情绪。
但是在几年前发表的一项研究中,当时在马德里自治大学的心理学家卡洛斯·克里韦利决定质疑和测试西方的情绪概念。他前往巴布亚新几内亚偏远的特罗布里恩群岛。在那里,他发现与世隔绝的社会生活在传统的聚居地。在实地实验中,他发现西方人通常与恐惧联系起来的表情被特罗布里恩人用作威胁性的展示。生活在与外界接触有限的孤立岛屿上,对特罗布里恩人体验情绪的方式产生了强烈的影响;他们感知某些情绪面部表情的方式似乎不符合埃克曼的简单模型。
“社会现实不仅仅是语言——它深入你的骨髓。研究表明,如果你将相同的烘焙食品感知为颓废的‘纸杯蛋糕’或健康的‘麦芬’,你的身体会以不同的方式代谢它,”心理学家丽莎·费尔德曼·巴雷特在她的书《情绪是如何产生的:大脑的秘密生活》中写道。“同样,你文化的语言和概念有助于塑造你的大脑线路以及你在情绪期间的身体变化。”
文化背景不是造成感知方面显著差异的唯一因素——还有更微妙、奇特和个体的影响。例如,儿童在识别面部情绪表情方面比青少年和成人更慢且准确性更低。
葡萄牙波尔图大学神经生理学实验室的费尔南多·费雷拉-桑托斯一直在研究情绪感知方面的年龄差异。他研究年龄与识别情绪表达能力之间是否存在相关性。
费雷拉-桑托斯说:“心理状态和面部表情之间的联系几乎从来不是一对一的关系。” “给定的心理状态——例如,情绪状态——可能与不同的行为相关联,而单一行为可能在不同的心理状态下出现。面部运动没有什么不同,因此,相同的面部信号可能具有不同的含义。”
因此,感知情绪不仅仅是识别某些面部运动所属的类别,例如恐惧或愤怒。儿童学习如何标记情绪表达的方式具有启发意义:他们首先区分面部表情的效价,区分好表情和坏表情,然后才逐渐发展出成人类别的“恐惧”、“悲伤”等等。“儿童学习他们文化的刻板印象的面部‘表情’,”费雷拉-桑托斯说。
北卡罗来纳大学教堂山分校的克里斯汀·林奎斯特同意:“大多数数据,”她说,“表明人们在感知面部情绪的能力上存在差异,是因为学习。” 她说。“面部上的信息是模棱两可的,人们在使用背景和先前的学习来消除歧义的程度上有所不同。这解释了为什么儿童随着年龄的增长而更擅长理解他人的面部表情,以及为什么有些人非常善于社交,而另一些人则不然。”
机器和人类的情绪:我们有什么共同点?
情感体验的世界为我们提供了关于一个人的重要信息。由于许多原因,它长期以来在人工智能领域被忽视。传统上,人工智能与理性思维、解决问题的能力和执行复杂逻辑运算的能力相关联。然而,情绪是我们生活中重要且不可或缺的一部分,这就是为什么今天的智能算法正在学习理解我们的情绪状态并对其做出正确的反应。而且,也许,对于人工智能来说,正确感知人类情绪和表达情感的任务比下棋要困难得多。
上面描述的小测试表明,当涉及到情绪表达时,一切都是模棱两可的。情绪分析算法应该比现在复杂得多。在情绪分析中,音频或视频片段的任何实例都会被细致地分割并作为一系列冻结在时间中的单独帧。当从自然的事件过程中取出时,情绪识别可能成为真正的挑战。毫不奇怪,识别混合的、伪造的或隐藏的情绪将需要背景信息,但是理解这种背景的任务对于计算机来说仍然是困难的。
格拉斯哥大学的亚历山德罗·文西亚雷利说:“总的来说,非语言线索——面部表情、语调、手势——倾向于以比语言更灵活的方式传达意义。”他的主要研究兴趣在于教会人工智能进行社交交流。“这是非语言交流成为传达细微差别的如此强大的手段的主要原因之一,尤其是在社交和情感互动方面。然而,这是以模糊性和不确定性为代价的,只有考虑背景才能解决这个问题。”
在机器学习中,背景的概念有两种主要形式:第一种与自动情绪识别的“多模态方法”有关,其中通道——例如,面部表情和手势——充当彼此的背景
文西亚雷利解释说:“已经表明,通道的组合会导致一些可能的效果。” “这使得开发技术方法变得更容易,这些方法受益于对多个线索的联合分析。技术误解多个线索的概率小于误解其中每个线索的概率。这提高了情绪识别的准确性。”
第二种类型的背景更熟悉:识别通信发生的特定情况中的相关特征。这也是人工智能的难题之一。
文西亚雷利说:“在这里,尚未确定清晰的背景分析模型或原则。” “技术一直无法识别可以描述情况的可测量特征。即使是最成功的尝试——称为W5,因为它包括何时、为什么、何地、什么和何人——也没有取得令人满意的结果。过去几十年中提出的成功的上下文感知技术浪潮也没有留下主要的痕迹。”
他补充说:“然而,可穿戴传感器和移动电话的普及现在使得捕获关于每个人所处环境的前所未有的大量数据成为可能。这可能是开发更能够依赖上下文的技术的关键。”