你的老板想窥探你的内心感受

科技公司现在使用人工智能来分析你在面试和公共场所的情感。但该软件似乎容易产生种族、文化和性别偏见

Crowd of people.

胡安·马布罗马拉 法新社和盖蒂图片社

英国利物浦,在2020年2月举行的关于相当平淡无奇的政府采购主题的会议上,与会者在参展商和供应商的展位之间穿梭,在一些展位前驻足,绕过另一些展位。他们正受到密切关注。在展厅周围,24个隐蔽放置的摄像头跟踪着每个人的 movements,并以每秒5到10帧的速度记录个人面部肌肉的细微收缩,因为他们对不同的展位做出反应。图像被送入计算机网络,人工智能算法在其中评估每个人的性别和年龄组,并分析他们的表情,寻找“快乐”和“投入”的迹象。

在利物浦活动大约一年后,总部位于德克萨斯州奥斯汀的 Zenus 公司的首席执行官帕诺斯·穆塔菲斯仍然对结果感到兴奋。Zenus 公司是这项技术的幕后推手。“我还没有看到很多商业系统能达到这种准确度,”他在一次视频通话中对我说,并向我展示了一张人群的照片,照片中人脸被方框框出。Zenus 工程师通过让系统检查大量面部表情数据集(其中包含描述相关感受的标签)来训练系统识别情感。该公司通过各种方式验证了该程序的性能,包括在人们报告拍摄图像时的感受时进行的现场测试。穆塔菲斯说,该系统“在室内有效,戴着口罩也有效,在没有照明的情况下有效,在人们戴着帽子和太阳镜时在室外也有效。”

Zenus 的设置是名为情感人工智能或情感计算的新技术的一个例子,该技术将摄像头和其他设备与人工智能程序相结合,以捕捉面部表情、肢体语言、语调和其他线索。其目标是超越面部识别和身份识别,揭示以前技术无法看到的的东西:图像中人物的内在感受、动机和态度。“摄像头一直都很笨,”美国公民自由联盟高级政策分析师杰伊·斯坦利说,他是 2019 年报告 机器人监控的黎明 的作者。“现在它们变得聪明起来。它们正在觉醒。它们不仅获得了愚蠢地记录我们所做的事情的能力,还获得了对其做出判断的能力。”


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


情感人工智能已成为一种流行的市场调研工具——在另一个贸易展上,Zenus 告诉希尔顿酒店,该公司举办的小狗和冰淇淋活动比该活动的开放式酒吧更吸引人——但其触角延伸到风险更高的领域。读取情感、性格和意图线索的系统正在被使用或测试,以检测边境检查站的威胁、评估求职者、监控课堂上的无聊或干扰,并识别攻击性驾驶的迹象。主要汽车制造商正在将这项技术应用到即将推出的新一代汽车中,亚马逊、微软、谷歌和其他科技公司提供基于云的情感人工智能服务,通常与面部识别捆绑在一起。数十家初创公司正在推出应用程序,以帮助公司做出招聘决策。例如,这种做法在韩国变得非常普遍,以至于职业指导员经常让他们的客户练习通过人工智能面试。

人工智能系统使用各种类型的数据来生成对情感和行为的洞察。除了面部表情、语调、肢体语言和步态外,它们还可以分析口语或书面语言的内容,以了解情感和态度。一些应用程序使用他们收集的数据来探测的不是情感,而是相关的洞察,例如一个人具有什么样的个性,以及他或她是否在专心致志或构成潜在威胁。

但批评人士警告说,情感人工智能的触角超出了其能力范围,可能会带来危险。人工智能算法可以在包含种族、民族和性别偏见的数据集上进行训练,这反过来会使它们的评估产生偏见——例如,针对非白人求职者。“有一种观点认为,我们可以将我们的一些认知过程卸载到这些系统上,”马里兰大学信息系统科学家劳伦·鲁厄说,她研究了情感人工智能中的种族偏见。“我们可以说,‘哦,这个人有一种威胁性的举止’,这是基于他们而言。这就是我们正在进入危险区域的地方。”

潜在的科学依据也存在争议。许多情感人工智能应用程序的起源可以追溯到半个世纪前心理学家保罗·埃克曼和华莱士·弗里森进行的研究,他们认为,少数面部表情对应于基本情感(愤怒、厌恶、恐惧、快乐、悲伤和惊讶;埃克曼后来在列表中添加了蔑视),并且这些表情构成了一种普遍理解的情感语言。但这些观点现在受到了激烈的争论。科学家们已经发现了面部表情存在显著的文化和个体差异的证据。许多研究人员表示,算法还不能——至少目前还不能——始终如一地解读不同个体的人类表情的细微之处,这些表情可能与刻板印象中的内在感受不符。埃克曼本人曾致力于开发早期形式的情感识别技术,现在他认为这会对隐私构成严重威胁,应该受到严格监管。

情感人工智能本身并没有什么不好。专家说,如果机器能够被训练成可靠地解读情感和行为,那么机器人技术、医疗保健、汽车和其他领域的潜力将是巨大的。但目前,这个领域实际上是一个自由放任的市场,一种基本上未经证实的技术可能会在社会有时间考虑潜在成本之前变得无处不在。

2018 年,当时担任 Airtame 人事和业务运营副总裁的马克·格雷正在寻找改进公司招聘流程的方法。效率是其中的一部分。Airtame 规模很小,约有 100 名员工分布在哥本哈根、纽约市、洛杉矶和布达佩斯的办事处,但该公司可能会收到数百份营销或设计职位的申请。另一个因素是招聘决策的反复无常。“很多时候,我觉得这来自于某人脑海中虚假的声音,即‘哦,我个人喜欢这个人’,而不是‘这个人会更称职’,”格雷说,他现在在丹麦房地产管理科技公司 Proper 工作。“在招聘和人力资源领域,这个领域充满了无形的东西,我有点想弄清楚如何为招聘增加有形方面。”

由内而外:一些情感人工智能系统依赖于心理学家保罗·埃克曼的工作。他认为,普遍的面部表情揭示了包括(从左到右)悲伤、快乐、愤怒、恐惧和惊讶在内的感受。图片来源:保罗·埃克曼

Airtame 与总部位于慕尼黑的 Retorio 公司签订了合同,该公司在视频面试中使用人工智能。流程很快:求职者只需录制 60 秒的答案来回答两到三个问题。然后,算法会分析面试者的面部表情和声音以及他们回答的文本。然后,它会根据五种基本性格特征生成一个个人资料,这是心理学中常用的模型,简称为 OCEAN:开放性、尽责性、外向性、宜人性和神经质。招聘人员会收到一份候选人排名列表,该列表基于每个个人资料与职位的匹配程度。

此类软件开始改变业务决策的制定方式以及组织与人员的互动方式。它已经重塑了 Airtame 的招聘流程,立即将一些候选人提升到另一些候选人之上。格雷说,那是因为个人资料分析有效。他分享了一张图表,显示最近几位销售人员的职位表现与他们的性格分数相关,其中在尽责性、宜人性和开放性方面得分较高的员工表现最好。

能够理解情感的机器长期以来一直是科幻小说的主题。但在计算机科学和工程领域,人类情感在很长一段时间内仍然是一个陌生的概念。麻省理工学院的罗莎琳德·皮卡德说,早在 20 世纪 90 年代,“这是一个禁忌话题,一些不受欢迎的东西”,她在 1995 年的 技术报告 中创造了“情感计算”一词。“人们认为我疯了、傻了、愚蠢、尴尬。一位受人尊敬的信号和语音处理人员走到我面前,一直盯着我的脚,然后说,‘你是在浪费时间——情感只是噪音。’”

皮卡德和其他研究人员开始开发能够自动读取和响应生物特征信息的工具,从面部表情到血液流动,这些信息表明了情绪状态。但当前应用程序的激增可以追溯到 2010 年代初开始广泛部署的深度学习,这是一种强大的机器学习形式,它使用神经网络,神经网络大致模仿生物大脑。深度学习提高了人工智能算法的能力和准确性,从而自动化了一些以前只有人才能可靠完成的任务:驾驶、面部识别和分析某些医学扫描。

然而,此类系统仍然远非完美,情感人工智能面临着一项特别艰巨的任务。算法应该反映关于世界的“真实情况”:它们应该将苹果识别为苹果,而不是桃子。机器学习中的“学习”包括反复比较原始数据——通常来自图像,但也来自视频、音频和其他来源——与标有期望特征的训练数据。这就是系统如何学习提取潜在的共性,例如来自苹果图像的“苹果性”。一旦训练完成,算法就可以识别任何图像中的苹果。

情境很重要:在一张 1964 年的裁剪照片()中,一位女士看起来很沮丧。但完整的图像显示她是欢乐人群(上图)的一部分。这些是欣喜若狂的披头士乐队粉丝在乐队在纽约市的酒店外。图片来源:约翰·佩丁 《纽约每日新闻》档案馆和盖蒂图片社

但是,当任务是识别难以定义的品质(如性格或情感)时,真实情况变得更加难以捉摸。“快乐”或“神经质”是什么样子的?情感人工智能算法不能直接直观地感知情感、性格或意图。相反,它们通过一种计算众包的方式进行训练,以模仿人类对其他人类做出的判断。批评人士说,这个过程引入了太多主观变量。“这些东西向我们展示的内容与某人头脑或情感空间中可能发生的事情之间存在深刻的差距,”南加州大学安纳伯格传播与新闻学院的凯特·克劳福德说,她研究人工智能的社会后果。“这就是一些技术正在进行的深刻而危险的飞跃。”

生成这些判断的过程很复杂,每个阶段都可能存在缺陷。例如,深度学习是出了名的数据饥渴。对于情感人工智能,它需要庞大的数据集,这些数据集结合了成千上万甚至数十亿的人类判断——例如,数据工作者标记为“快乐”或“微笑”的人的图像。但是,算法可能会无意中“学习”到组装数据的人的集体、系统性偏见。这种偏见可能来自训练集中倾斜的人口统计数据、标签者的无意识态度或其他来源。

即使是识别微笑也远非一项简单的任务。科隆 GESIS-莱布尼茨社会科学研究所的卡斯滕·施韦默及其同事在 2020 年进行的一项 研究 中,将国会议员的照片通过亚马逊、微软和谷歌的基于云的情感识别应用程序进行处理。科学家们自己的审查发现,86% 的男性和 91% 的女性在微笑——但应用程序更有可能发现女性在微笑。例如,谷歌云视觉将“微笑”标签应用于超过 90% 的女性,但应用于不到 25% 的男性。作者认为,训练数据中可能存在性别偏见。他们还写道,在他们自己对图像的审查中,机器忽略了歧义是很常见的:“许多面部表情似乎介于两者之间。那真的是微笑吗?傻笑算吗?如果牙齿露出来了,但看起来并不快乐呢?”

面部识别系统(大多数也基于深度学习)因偏见而受到广泛 批评。例如,麻省理工学院媒体实验室的研究人员发现,当匹配非白人、非男性面孔的身份时,这些系统的准确性较低。通常,这些错误是由于使用了偏向白人和男性的训练数据集而引起的。识别情感表情增加了额外的复杂性:这些表情是动态的,并且摆拍照片中的面孔与自发快照中的面孔可能存在细微差别。

马里兰大学的研究员鲁厄使用了一个公开的职业篮球运动员照片数据集来测试两种情感识别服务,一种来自微软,另一种来自 Face++,一家总部位于中国的面部识别公司。两者都始终如一地将更多的负面情绪归因于黑人球员,而不是白人球员,尽管每种方式都不同:Face++ 认为黑人球员生气的次数是白人球员的两倍;当表情含糊不清时,微软认为黑人球员表现出的蔑视是白人球员的三倍。她说,这个问题可能可以追溯到训练数据集中标注图像中的偏见。微软和 Face++ 没有回复置评请求。

许多公司现在强调,他们意识到并正在解决此类问题。Retorio 的联合创始人克里斯托夫·霍恩伯格说,Retorio 的算法是在一个数据集上训练的,该数据集是使用付费志愿者在多年时间内编译的,其中包括标有性格特征的简短面试视频。他说,该公司已采取措施过滤掉各种人口统计学和文化偏见,这些偏见可能会在性格评估中倾向于某个群体。但是,由于目前对该行业没有监管或监督,因此在大多数情况下,我们必须相信公司的话——专有数据集的稳健性和公平性很难验证。HireVue 是一家使用算法分析文本和语调进行视频面试的公司,它聘请了一位外部审计师来检查是否存在偏见,但这很少见。

“这种人类应该有一个标准,并且每个人都可以平等地达到这个标准的想法”从根本上说是错误的,北卡罗来纳大学法学院研究人工智能决策的副教授伊费奥玛·阿琼瓦说。她说,这种假设意味着“每个不符合该标准的人都处于不利地位。”

了对偏见的担忧之外,对于每个人来说,外在表现都与可破译的内在情感相匹配的观点也开始引起强烈的科学反对。这与 50 多年前这个概念兴起时的情况有所不同。当时,埃克曼和弗里森正在东南巴布亚新几内亚高地的福尔人(一个土著群体)中进行实地调查,以了解他们是否像来自截然不同背景的人们(例如,来自布鲁克林的码头工人或塞内加尔的护士)一样识别和理解面部表情。志愿者们被展示了一组照片,照片中的人物做出了科学家们称之为六种基本情感的表情。为了提供背景信息,一位翻译提供了简短的描述(例如,“他/她正在看一些闻起来很糟糕的东西”表示厌恶)。福尔人的反应与在日本、巴西或美国等国家调查的人们的反应几乎相同,因此研究人员认为面部表情是一种普遍可理解的情感语言。

一组共享的表情代表基本情感状态的观念很快在心理学和其他领域流行起来。埃克曼和弗里森开发了一个包含数千种面部动作的图谱来解释这些表情,称为面部动作编码系统 (FACS)。图谱和理论都成为情感人工智能的基石。这项工作已被纳入许多人工智能应用程序中,例如 Affectiva 公司开发的应用程序,其中包括车载系统和市场调研。

但是科学家们认为埃克曼的理论存在漏洞。例如,2012 年发表在《美国国家科学院院刊》上的一项研究提出了数据,表明面部表情 因文化而异。2019 年,东北大学的心理学家丽莎·费尔德曼·巴雷特与几位同事一起发表了一项 研究,该研究检查了 1000 多篇关于面部表情的科学论文。他们发现,面部揭示常见情感的外在迹象的观念已经传播到从技术到法律等领域,但几乎没有确凿的证据表明这是真的。

巴雷特说,基本情感是广泛的刻板印象类别。面部表情时刻反映着复杂的内在状态——微笑可能掩盖痛苦,也可能表达同情。她认为,如今,如果人工智能系统是在本质上是标记刻板印象集合的数据集上训练的,那么它几乎不可能始终如一地、可靠地对这些内在状态进行分类。“它正在衡量某些东西,然后推断其心理学意义,”巴雷特说。“但这是两件不同的事情。我不能对每家公司都这么说,因为我不知道每个人都在做什么。但已经宣传的情感识别技术通常会混淆这两件事。”

性别偏见:在一项使用政治家面孔的研究中,研究人员发现,一个情感人工智能程序确定只有少数男性在微笑。然而,科学家们自己的审查表明,绝大多数男性都露出了微笑。与男性相比,该程序谷歌云视觉将“微笑”标签应用于许多女性。两张图像(下方)中属性标签上的百分比表示人工智能对标签准确性的置信度。这位女性获得了 64% 置信度的微笑标签——以及专注于她头发的标签——而这位男性根本没有获得该标签。图片来源:卡斯滕·施韦默等人撰写的《诊断图像识别系统中的性别偏见》,载于《Socius:动态世界社会学研究》,第 6 卷。在线发表于 2020 年 11 月 11 日 https://doi.org/10.1177/2378023120967171带有标签的头像);维基百科(头像

克劳福德说,造成这个问题的原因之一是科技初创公司不了解其他领域的科学辩论,而这些初创公司被 FACS 等系统的优雅简洁性所吸引。“为什么机器学习领域会被埃克曼吸引?”克劳福德问道。“它非常符合机器学习能力。如果你说表情的数量有限,潜在情感的数量也严格限制,那么人们就会主要因为该理论符合工具的能力而采纳这种观点。”除了埃克曼的工作和 OCEAN 的性格特征模型外,情感人工智能公司还采用了其他系统。其中之一是已故心理学家 罗伯特·普卢契克 设计的“情感轮”,英国公司 Adoreboard 使用它来分析文本中的情感。所有这些方法都旨在将人类情感的复杂性转化为简单的公式。它们可能也存在类似的缺陷。一项研究发现,OCEAN 在不同的文化中产生的结果不一致

尽管如此,研究人员表示,情感应用程序可以发挥作用——如果它们的局限性得到理解的话。俄亥俄州立大学工程学院院长、机器人专家阿扬娜·霍华德在机器人中使用微软面部表情识别软件的修改版本,以教导患有自闭症的儿童社交行为。例如,如果机器人检测到对话者的“愤怒”表情,它的动作会以平息局势的方式进行调整。刻板印象的面部表情可能并不总是意味着完全相同的事情,霍华德说,但它们是有用的。“是的,我们是独一无二的——但我们与隔壁的人并没有那么不同,”她说。“因此,当你在谈论一般情感时,你可能会弄对,也许不是每次都对,但比随机正确的可能性更大。”

巴雷特说,总的来说,扫描和汇总许多人反应的算法——例如 Zenus 用于读取人群的算法——会更准确,因为对于一个大型群体来说,“比随机好”在统计上变得有意义。但是评估个人更危险,因为任何低于 100% 的准确率最终都会歧视某些人。

许多计算机视觉专家现在正在接受对表情的更不可知论的观点。(越来越多的公司已经开始声明他们不直接映射情感或内在状态。)“随着该领域的发展,人们越来越认识到,许多表情与情感无关,”南加州大学专门从事情感计算的计算机科学教授乔纳森·格拉奇说。“它们有点像我们用来相互影响的工具,或者它们几乎就像对话中的词语,因此这些词语中蕴含着意义。但这并不是直接访问我此刻感受到的东西。”

而,随着试图绘制和利用情感表达、性格特征和行为的努力不断增长,它们正在扩大我们生活中可能受到监视的部分。在科技公司挖掘在线行为中的个人数据 20 年后,一个新的、更私密的领域——面孔和身体及其发送的信号——即将受到类似的对待。温哥华公司 VSBLTY 的首席执行官杰伊·赫顿说, “如果你是可口可乐公司,并且你正在开展一项营销活动,而你主要的营销信息方法是互联网,那么你就了解你所触达的受众的一切信息,” VSBLTY 销售智能摄像头和软件,这些摄像头和软件扫描人群,分析人口统计数据和零售商对产品的反应。“但是,如果我们能够利用计算机视觉并将实体店转化为与互联网相同水平的分析,那会怎么样呢?”

2020 年 12 月,VSBLTY 宣布与墨西哥啤酒商 Grupo Modelo 建立合作伙伴关系,到 2027 年在墨西哥和其他拉丁美洲国家的这家饮料公司的 50,000 家 Modelorama 便利店和社区小酒馆中创建店内摄像头网络,以捕获数据。赫顿说,只要有屏幕和广告,就会存在需求。他说,这项技术“将用于交通枢纽,或机场,或体育场”。“广告商花费数百万美元成为赞助商,他们的广告出现在整个体育场的屏幕上,[并且]他们正在寻找对这种宣传的验证。”

这种趋势提出了一个基本的法律和社会问题:来自你的面孔和身体的数据是否属于你?在世界各地的大多数地方,答案是否定的——只要你的个人身份与这些数据保持分离。“如果你想知道,并且有人在公共场合,那么似乎可以无限度地扫描他们的情绪,”辛辛那提大学法学院教授詹妮弗·巴德说,她 研究了这个问题

大多数在公共场合捕获数据的情感人工智能公司表示,这些信息是匿名的,因此收集这些信息不应引起担忧。赫顿说,VSBLTY 不存储面部图像或其他可以链接到身份的数据。Zenus 的穆塔菲斯指出,他公司的应用程序不会上传其摄像头捕获的实际面部图像——只上传关于情绪和位置的相关元数据——并且它会在会议屏幕上张贴标志和通知,说明正在进行监控。“不需要明确的同意,”他说。“我们总是告诉部署它的人,这是一个非常好的做法;当您有监控敏感性时,您必须张贴一个标志,表明这些区域正在受到监控。”穆塔菲斯说,通常情况下,人们并不介意,并且会忘记摄像头。但是应用程序的多样性意味着没有通用标准。一旦这种日常监控成为政治和政策问题,人们和政治家是否会接受它,这一点也远不清楚。

埃克曼早些时候曾与 Emotient 公司和苹果公司合作开发情感人工智能,现在他警告说,情感人工智能对隐私构成威胁,并表示公司应该在法律上有义务获得他们扫描的每个人的同意。“不幸的是,这是一项可以在人们不知情的情况下使用的技术,并且正在对他们使用,而且对他们使用它并不是为了让他们更快乐,”他说。“而是对他们使用它,让他们购买他们可能不会购买的产品。这可能已经是其非良性用途中最良性的了。”

情感人工智能也已进入个人空间,在那里,潜在的行为数据宝藏更加丰富。据一位发言人称,亚马逊的 Alexa 分析用户的语调以寻找挫败感的迹象,从而改进其算法。到 2023 年,一些汽车制造商将推出支持人工智能的车载系统,这些系统将生成大量关于驾驶员和乘客行为的数据。汽车制造商将希望获得这些数据(也可能是匿名的),用于改进系统响应和车载设计以及衡量驾驶员性能等汇总行为。(特斯拉已经从其车辆中的多个来源收集数据。)情感人工智能公司 Eyeris 的首席执行官莫达尔·阿拉维说,客户可能会选择激活这些系统的各种级别,因此,如果乘员不使用某些功能,则不会收集关于这些功能的数据。Affectiva(最近被瑞典公司 Smart Eye 收购)设计的车载系统不记录视频,但会提供元数据,首席营销官加比·齐德维尔德说。

俄亥俄州立大学和亚马逊的计算机视觉科学家亚历克斯·马丁内斯是 2019 年批评面部表情与情感之间联系的论文的合著者,他和巴雷特一起撰写了这篇论文。他有一张他喜欢给人们看的 照片。照片中是一个男人的脸,看起来扭曲成愤怒和恐惧的混合体。然后他展示了完整的图像:那是一位在进球后欣喜若狂的足球运动员。面部表情、手势和其他信号不仅是身体和大脑的产物,他还指出,也是情境的产物,是人周围发生的事情的产物。到目前为止,这已被证明是情感人工智能面临的最大挑战:解释模棱两可的情境。“除非我知道足球是什么,否则我永远无法理解那里发生了什么,”马丁内斯说。“因此,这种知识是根本性的,而我们目前没有任何人工智能系统能够很好地做到这一点。”

马丁内斯说,如果任务范围狭窄,周围环境简单,并且收集的生物特征信息多样化——声音、手势、脉搏、皮下血流等等,那么这项技术就会变得更有效。下一代情感人工智能可能会结合这种信息。但这反过来只会创造出更强大、更具侵入性的技术,而社会可能还没有为此做好准备。

© . All rights reserved.