那么,嗯,谷歌Duplex的聊天并不完全像人类

一位系统科学家剖析了制造一台能够欺骗人类,让他们以为它是我们自己人的机器的复杂性

谷歌的Duplex语音助手上周在该公司的年度I/O开发者大会赢得了掌声,此前首席执行官桑达尔·皮查伊演示了这项人工智能技术自主预订了一家美发沙龙和一家餐厅,显然欺骗了接听电话的人。但此后,热情被对计算机冒充人类进行电话呼叫的伦理问题的担忧所冲淡。对于谷歌、亚马逊Facebook和其他科技公司来说,这种褒贬不一的反应变得越来越普遍,因为它们在人工智能的边界上不断推进,但这些方式并非总是考虑到消费者的隐私或安全问题。

谷歌Duplex预订女士理发的录音。由谷歌提供


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


Duplex事件也突显了人类对话的复杂性,以及在模仿自然声音的机器中复制实时语音的难度。谷歌通过从电话对话中提取数据来训练语音助手,包括音频本身,以及诸如一天中的时间和通话目的等背景信息。这种机器学习过程在某些方面类似于教人工智能识别和再现图像,这是另一种引起伦理和隐私问题的能力。然而,谷歌已经明确表示,目前Duplex只能被训练成与人们进行非常具体的口头交流;它无法处理一般的、开放式的对话。该公司还声称,它正在“试验正确的方法”来告知人们他们正在与Duplex而不是真人通话。

大众科学 采访了卡内基梅隆大学语言技术研究所研究语音处理的系统科学家蒂莫·鲍曼,请他解释如何训练人工神经网络来识别和再现图像和声音。鲍曼还分析了谷歌在Duplex方面取得的成就,以及人工智能进步可能带来的伦理挑战。

[以下是采访的编辑稿。]

能够生成逼真图像的神经网络和能够用自然语言进行对话的神经网络之间有什么区别?

不同的人工神经网络用于训练不同类型的人工智能。对于图像,您想要识别物体,理解它们的关系,捕捉风格等等——这些信息分布在整个图像上。用于图像的神经网络检测边缘以找到图像中物体的形状,从而掌握正在发生的事情——类似于您的视觉皮层所做的事情。然而,对话是随着时间推移而发展的,因此您必须了解事物是如何演变的。同一个词在一个位置可能意味着不同的东西,[当]在不同的位置时。

这是图像(卷积神经网络在这方面表现出色)和语音(由可变长度信号组成)之间的根本区别。像谷歌用来训练Duplex的循环神经网络是处理这些可变长度的一种方法。“循环”意味着网络一次分析信号的小部分——每次10或20毫秒——并将分析结果整合到下一步中,随着时间的推移逐渐积累信息。这类似于我们通过将听到的声音拼凑在一起,来识别说出的单词的方式。在图像和语音这两种情况下,您也可以反向运行网络以产生输出。在对话中,[网络]必须在理解用户所说的话和自己说话之间来回切换。

您如何训练神经网络真正进行对话——而不是脚本化的单词交换?

Duplex似乎由多个部分神经网络组成,每个子网络都专注于自然语言的不同方面。例如,一部分负责学习执行特定任务或领域所需的动作——无论是预订餐厅还是预约理发。谷歌还表示,它整合了跨所有领域的其他类型的数据,例如填充词,例如,表达犹豫(“嗯”)或理解(“啊哈”)。这是一个聪明的策略,因为谷歌可以收集和训练负责[这些表达]的神经网络,使用比训练特定类型的对话更多的数据。

在创建能够进行逼真对话的人工智能时,这些对话表达方式及其时机有多重要?

随机地在句子中放入像“嗯”这样的填充词没有多大意义。然而,当正确使用时,这种类型的表达实际上可以在对话中发挥重要作用。在谷歌提供的一个例子中,Duplex使用“那么”这个词来让听众知道信息即将到来,并使用“嗯”这个表达来给听众一点额外的时间来准备接收这些信息。人工智能可能从数据中了解到,这是一个放置“嗯”作为标记的好地方——警告听众真正倾听,因为这是信息将被传达的时候。这样,“嗯”不仅仅是一个填充词,而是在传达意义。

也就是说,Duplex可能不是战略性地使用填充词,而只是将它们添加到合理的位置。Duplex中[似乎]缺失的其他方面是回声表达,这些表达提供了从听众到说话者的重要反馈。如果我在电话里听到另一端传来“嗯哼,嗯哼”的声音,这有一个非常重要的功能,可以通知我您正在听,并且理解了——并且我应该继续说下去。您在Duplex中听不到任何这些声音。反馈信息也必须在精确的时间和低延迟的情况下传递;否则会造成尴尬或困惑。这些表达方式可能很微小,但它们可能对对话产生很大的影响。如果人工智能系统说话太慢,与它互动的人会感到不确定并重复自己,因为他们会认为他们正在交谈的人没有收到消息。

伦理在对话式人工智能的发展中占据什么位置?

应该进行模拟自然语言对话的研究吗?当然应该。找出人类语言是如何运作的,这确实很有趣。尽管我们每天都在这样做,但我们几乎不知道什么是重要的,什么是不重要的。谷歌应该以他们所做的方式进行Duplex研究吗,用真实的人测试他们的人工智能,而这些人没有意识到他们正在与计算机交谈?我不知道。当然,谷歌需要关于他们的系统表现如何的输入,但是让人们与机器交谈而不知道它是机器,显然存在伦理影响。

随着人工智能的改进,这些伦理问题将如何变得更加困难?

在讨论人工智能的伦理问题时,一个将越来越频繁出现的问题是,人工智能是否是这项工作的正确工具。例如,在自动驾驶汽车的情况下,解决这个问题非常令人兴奋。但是,[解决交通安全和拥堵问题的]方案是自动驾驶汽车吗?还是公共汽车,可以有效地将人们送到他们想去的地方,并且可能由机器驾驶,也可能不是?当您将自动驾驶技术改进到成为主流时,您现在是否增加了道路上的汽车数量?这是否是社会的正确解决方案?

在[Duplex]安排美发师预约的情况下,最简单的解决方案是让人们的手机更容易通过自动化界面进行预约和更改预约。不涉及人工智能,只有经典的计算机科学和工程工作——但这将使我的美发师能够理发,而不是整天重新安排预约。

在什么情况下创建可以与人进行自然对话的人工智能是有意义的?

简而言之:对话是目标,而不是可以轻松自动化的信息交换的场合。许多学者已经研究了语音技术在老年人护理中的应用,例如,对抗老年人的孤独感、智力衰退和互动匮乏。在依靠人工智能来照顾老年人方面,也存在——甚至更大——伦理问题。但是,老年人护理人工智能正在被研究的主要原因是人们自己不愿意[照顾老年人]。如果有人担心老年人不得不与机器而不是人互动,答案可能是告诉那个人花更多时间陪伴他们的祖母。如果我们无法通过改变我们的优先事项和行为来解决问题,那么至少给老年人一台机器来互动以提高他们的生活质量总比什么都没有好。

© . All rights reserved.