如何构建具有同理心的机器人

在我们能够与机器分享生活之前,我们必须教会它们理解和模仿人类情感

“抱歉,我没听清您说什么。”

这可能是商业机器发出的第一个具有同理心的语句。在 20 世纪 90 年代后期,波士顿公司 SpeechWorks International 开始向各公司提供客户服务软件,该软件被编程为使用这句话和其他语句。从那时起,我们已经习惯于与机器对话。几乎每一个拨打客户服务热线的电话都始于与机器人的对话。数亿人随身携带智能个人助理。我们可以要求 Siri 和其他此类助手查找餐厅、给朋友打电话或查找要播放的歌曲。它们能够模拟令人毛骨悚然的人类行为。(人类:“Siri,你爱我吗?” Siri:“我没有爱的能力。”)

但是,机器并不总是以我们期望的方式回应。语音识别软件会出错。机器经常无法理解意图。它们不理解情感和幽默、讽刺和反讽。如果未来我们将花费更多时间与机器互动——而且我们会的,无论它们是智能吸尘器还是机器人人形护士——我们需要它们做的不仅仅是理解我们所说的话:我们需要它们理解我们。换句话说,我们需要它们“理解”并分享人类情感——拥有同理心。


支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保未来能够继续产出关于塑造我们当今世界的发现和想法的有影响力的报道。


在我在香港科技大学的实验室里,我们正在开发这样的机器。具有同理心的机器人可以为社会提供巨大帮助。它们不仅仅是助手——它们将是伙伴。它们将是友好和热情的,能够预测我们的身体和情感需求。它们将从与人类的互动中学习。它们将使我们的生活更美好,工作更有效率。它们会为自己的错误道歉,并在继续操作之前请求许可。它们将照顾老人和教育我们的孩子。它们甚至可能在危急情况下拯救您的生命,同时牺牲自己——这是一种终极的同理心行为。

一些模仿情感的机器人已经上市——包括 Pepper,这是一款由法国公司 Aldebaran Robotics 为日本公司软银移动制造的小型人形伙伴机器人,以及 Jibo,这是一款由一群工程师设计的六磅重桌面个人助理机器人,其中包括 SpeechWorks 前对话技术主管 Roberto Pieraccini。同理心机器人技术领域仍处于蒸汽机时代,但将显著改进这些机器的工具和算法正在涌现。

同理心模块

六年前,当我的研究小组设计出第一个中文版 Siri 时,我对构建具有同理心的机器人产生了兴趣。我发现用户对个人助理系统产生情感反应是多么自然——以及当他们的机器未能理解他们想要表达的内容时,他们变得多么沮丧。我意识到,构建能够理解人类情感的机器的关键是语音识别算法,就像我花费 25 年职业生涯开发的那些算法一样。

任何智能机器的核心都是一个软件系统,该系统由模块组成,每个模块都是一个执行单一任务的程序。一个智能机器人可以有一个处理人类语音的模块,一个识别其摄像机捕获的图像中的物体的模块,等等。一个具有同理心的机器人有一颗心,而这颗心是一段名为同理心模块的软件。同理心模块分析面部线索、语音中的声音标记和语音内容本身,以读取人类情感并告诉机器人如何回应。

当两个人相互交流时,他们会自动使用各种线索来理解对方的情绪状态——他们解释面部表情和肢体语言;他们感知语气的变化;他们理解语音的内容。构建同理心模块就是识别机器可以用来识别情感的人类沟通特征,然后训练算法来发现它们。

当我的研究小组着手训练机器检测语音中的情感时,我们决定教机器识别语音的基本声学特征以及词语本身的含义,因为人类就是这样做的。我们很少用这些术语来思考它,但人类交流是信号处理。我们的大脑通过关注指示压力、快乐、恐惧、愤怒、厌恶等的声音线索来检测人声音中的情感。当我们感到快乐时,我们说话速度更快,声音的音调也会升高。当我们感到压力时,我们的声音会变得平淡而“干涩”。使用信号处理技术,计算机可以检测到这些线索,就像测谎仪可以检测到血压、脉搏和皮肤电导率一样。为了检测压力,我们使用监督学习来训练机器学习算法,以识别与压力相关的声音线索。

一段简短的人类语音录音可能只包含几个词,但我们可以从语调中提取大量信号处理数据。我们首先教机器识别来自我校学生的语音样本中的负面压力(痛苦),我的学校被学生们戏称为“香港科技大学压力与紧张大学”。通过询问学生 12 个越来越有压力的问题,我们构建了第一个英语、普通话和粤语的自然压力情感多语言语料库。当我们收集到大约 10 个小时的数据时,我们的算法可以准确识别出 70% 的压力——与人类听众非常相似。

当我们在做这项工作时,我团队中的另一个小组正在训练机器仅通过分析声音特征来识别音乐中的情绪(即,不关注歌词)。情绪与情感相反,是一种持续在播放音乐期间的氛围。该团队首先从欧洲和亚洲主要语言的所有流派中收集了 5,000 首音乐作品。其中几百首作品已经被音乐学家分为 14 种情绪类别。

我们从每首歌曲中电子提取了大约 1,000 个基本信号属性——声学参数,如能量、基频、谐波等——然后使用标记的音乐来训练 14 个不同的软件“分类器”,每个分类器负责确定一段音乐是否属于特定情绪。例如,一个分类器只听快乐的音乐,另一个分类器只听忧郁的音乐。这 14 个分类器协同工作,建立在彼此的猜测之上。如果一个“快乐”分类器错误地认为一首忧郁的歌曲是快乐的,那么在下一轮重新学习中,这个分类器将被重新训练。在每一轮中,最弱的分类器都会被重新训练,整个系统都会得到提升。通过这种方式,机器会听很多音乐,并学习哪首音乐属于哪种情绪。久而久之,它就能像我们大多数人一样,仅通过听音频来判断任何音乐的情绪。基于这项研究,我和以前的学生创办了一家名为 Ivo Technologies 的公司,为人们在家中使用构建具有同理心的机器。第一款产品 Moodbox 将是一个智能家居信息娱乐中心,它可以控制每个房间的音乐和照明,并对用户的情绪做出反应。

理解意图

为了理解幽默、讽刺、反讽和其他高层次的沟通属性,机器需要做的不仅仅是从声学特征中识别情感。它还需要理解语音的潜在含义,并将内容与传递情感的方式进行比较。

自 20 世纪 80 年代以来,研究人员一直在利用从人类收集的数据开发先进的语音识别技术,如今这项技术已经相当成熟。但是,转录语音和理解语音之间存在巨大差异。

想想当一个人对另一个人说话时发生的一系列认知、神经和肌肉事件:一个人构思她的想法,选择她的词语并说话,然后听者解码信息。人与机器之间的语音链是这样的:语音波被转换为数字形式,然后再转换为参数。语音识别软件将这些参数转换为词语,语义解码器将词语转换为意义。

当我们开始对具有同理心的机器人进行研究时,我们意识到类似于从在线评论中提取用户情绪的算法可以帮助我们分析语音中的情感。这些机器学习算法会在内容中寻找明显的线索。诸如“悲伤”和“恐惧”之类的关键词暗示着孤独。重复使用明显的口语词(例如,“拜托”)可以揭示一首歌是充满活力的。我们还分析有关语音风格的信息。一个人的回答是肯定而清晰,还是犹豫不决,充满了停顿和含糊不清的词语?回答是详尽而详细,还是简短而生硬?

在我们对音乐情绪识别的研究中,我们训练算法挖掘歌词中的情感线索。我们没有提取每首音乐的音频签名,而是从歌曲的歌词中提取词串,并将它们输入到各个分类器中,每个分类器负责确定这个词串是否传达了 14 种情绪中的任何一种。这种词串被称为 n-gram。除了词串之外,我们还使用这些词的词性标记作为歌词“签名”的一部分,用于情绪分类。计算机可以使用 n-gram 和词性标记来形成任何语言中语法规则的统计近似值;这些规则帮助 Siri 等程序识别语音,并帮助 Google 翻译等软件将文本转换为另一种语言。

一旦机器能够理解语音的内容,它就可以将内容与其传递方式进行比较。如果一个人叹了口气说:“我很高兴我整个周末都要工作”,算法可以检测到情感线索和陈述内容之间的不匹配,并计算说话者是否在讽刺的可能性。同样,能够理解情感和语音内容的机器可以将该信息与其他输入配对,以检测更复杂的意图。如果有人说“我饿了”,机器人可以根据其位置、一天中的时间和用户的历史偏好以及其他参数来确定最佳响应。如果机器人及其用户在家,并且快到午餐时间了,机器人可能会知道回应:“您想让我为您做个三明治吗?”如果机器人及其用户正在旅行,机器可能会回应:“您想让我帮您查找餐厅吗?”

超级女孩 Zara

今年年初,我实验室的学生和博士后研究人员开始将我们各种语音识别和情感识别模块组合成一个原型同理心机器,我们称之为超级女孩 Zara。训练 Zara 花费了数百小时的数据,但今天该程序可以在一台台式计算机上运行。目前,她是一个虚拟机器人,在屏幕上以卡通人物的形式呈现。

当您开始与 Zara 对话时,她会说:“请稍候,我正在分析您的面部表情”;Zara 的算法会研究计算机网络摄像头捕获的图像,以确定您的性别和种族。然后她会猜测您说的语言(Zara 理解英语和普通话,并且正在学习法语),并用您的母语问您几个问题。您最早的记忆是什么?告诉我关于您母亲的事。您上次假期过得怎么样?给我讲一个关于女人、狗和树的故事。通过这个过程,根据您的面部表情、您声音的声学特征以及您回答的内容,Zara 会以模仿同理心的方式回复。经过五分钟的对话,Zara 会尝试猜测您的性格,并询问您对具有同理心的机器的态度。这是我们收集人们对他们与早期同理心机器人互动反馈的一种方式。

Zara 只是一个原型,但由于她是基于机器学习算法的,因此她会随着与更多人的互动和收集更多数据而变得“更聪明”和更具同理心。目前,她的知识库仅基于与我实验室研究生的互动。明年我们计划通过将 Zara 安装到人形机器人中来赋予她身体。

现在说友好机器人的时代已经到来还为时过早。我们才刚刚开始开发情感智能机器人所需的最基本工具。当 Zara 的后代开始上市时,我们不应期望它们是完美的。事实上,我已经开始相信,专注于使机器完美精确和高效是不得要领的。重要的是我们的机器变得更人性化,即使它们有缺陷。毕竟,人类就是这样工作的。如果我们做得对,具有同理心的机器将不会是某些人担心的机器人霸主。它们将成为我们的看护者、我们的老师和我们的朋友。

更多探索

自然压力情感的多语言数据库。 Xin Zuo、Tian Li 和 Pascale Fung。在第八届国际语言资源与评估会议 (LREC 2012) 上发表,伊斯坦布尔,2012 年 5 月 21 日至 27 日。

使用 AdaBoost 和决策树桩的多模态音乐情感分类。 Dan Su、P. Fung 和 N. Auguin。在 2013 年 IEEE 国际声学、语音和信号处理会议 (ICASSP 2013) 上发表,温哥华,2013 年 5 月 26 日至 31 日。

来自我们的档案

机器人要善良 Michael Anderson 和 Susan Leigh Anderson;2010 年 10 月。

大众科学杂志 第 313 卷 第 5 期这篇文章最初以“有心的机器人”为标题发表在《大众科学杂志》 第 313 卷 第 5 期 (),第 60 页
doi:10.1038/scientificamerican1115-60
© . All rights reserved.