Alexa,我们如何将关系更进一步?

如果语音界面要取代键盘和触摸屏,它们必须变得更智能

家用智能语音激活助手。

虽然通过与智能手机和其他设备随意聊天来互动会非常有用,但实现这种简单而有意义的来回交流的技术已被证明是难以捉摸的。亚马逊 Alexa、苹果 Siri 和谷歌助手等语音控制虚拟助手通常需要用户做出正式、措辞清晰的请求,同时将自己隔离在背景噪音最小的地方。现有技术还存在无法脱离脚本的缺点,因为其对话依赖于少量预编程的回复。

开发这些语音助手的公司痛切地意识到自身的缺点。苹果似乎正在加大力度招聘 Siri 工程师以改进其产品,而谷歌和亚马逊一直在忙于扩展其语音助手执行多项任务的能力——称为“例程”——只需一个命令。

亚马逊周四推出了三项 Alexa 改进,将于 5 月底前推出。其中最重要的一项称为“上下文延续”,这将使 Alexa 能够回忆起从一个语音请求到另一个语音请求的信息。一项新的记忆功能将允许用户通过语音命令存储和检索生日、周年纪念日和其他重要信息。亚马逊还改进了 Alexa 搜索和执行新“技能”的能力——“技能”是语音界面相当于智能手机应用程序的东西。例如,询问 Alexa 如何去除衬衫上的油渍将激活“汰渍去污剂”技能,该技能将指导用户完成去污过程。其他技能使 Alexa 用户只需说几句话即可查看其 Capital One 信用卡余额、获取开盘价或将葡萄酒与膳食搭配。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。


大众科学采访了亚马逊 Alexa 机器学习应用科学主管 Ruhi Sarikaya,他原定于 周四在法国里昂举行的 AI 会议的主题演讲中宣布这些消息。Sarikaya 还将讨论语音识别和自然语言处理的改进如何帮助简化 Alexa,从而使该技术能够更好地理解用户的需求。大众科学询问了他为什么语音界面如此难以做好,我们何时可以期望它们得到改进,以及用户如何更好地保护 Alexa 收集的个人数据的隐私。

[以下是经过编辑的采访记录。]

是什么让您认为我们正处于语音成为我们与设备通信的主要方式的风口浪尖?

想想 1976 年,当时 [苹果联合创始人] 史蒂夫·沃兹尼亚克制造了第一台带有显示器和键盘的 PC。快进到今天,人们仍然使用显示器和键盘与他们的大多数设备互动。即使使用智能手机,您也需要键入或触摸屏幕才能获得输出。这是一个问题,因为它实际上使我们无法动弹。即使您可能在四处走动,您的注意力仍然集中在屏幕上。这种情况正在随着语音而改变——原因有三:小型设备中计算能力的提高;收集和分析大量数据的能力;以及机器学习的进步,特别是深度学习。这些类型的 AI 算法正在使语音识别和自然语言理解更加准确。

在使语音界面能够与消费技术良好配合方面,最大的挑战是什么?

在语音识别方面,存在组件级别的挑战和用户体验挑战。但是,如果条件相对安静,则非常准确。但是,如果存在背景噪音或多人同时讲话,这是我们仍然需要处理的挑战。您希望能够在多人同时讲话时跟踪不同的声音。关于帮助设备理解自然语言,上下文是关键挑战。如果数字个人助理仅限于少数几个领域或功能(例如,它专门用于播放音乐),则很容易理解用户的意图。再加上筛选有关电影、视频和有声读物的数据的责任,突然之间,“播放 X”命令变得模棱两可。它可能指的是这些类别中的任何内容。

为什么在与智能设备互动时,上下文如此重要?

如果您和我现在正在聊天,我可能会从上次我们谈话中延续信息。我们不需要重复我们之前讨论的所有内容,就能进行无缝对话。这对人们来说是很自然的,但对与机器交谈来说却并非如此,目前您必须使用精确的措辞才能被理解。您会期望,如果机器足够智能,它将能够从早期的对话中延续信息。如果我问,“Alexa,西雅图的天气怎么样?”,然后我问,“这个周末怎么样?”,我希望听到关于西雅图这个周末的天气,而无需在第二个问题中明确说明。如果我问,“Alexa,我今天的日程安排是什么?”,系统会使用存储在其日历中的信息进行响应。如果我问,“这个周末怎么样?”,我希望获得本周末的日历信息,而不是天气信息。对于第二个问题,没有上下文就没有正确的答案——可能有很多答案。这被称为“会话上下文”,它允许机器根据当前的对话正确回答问题。

机器如何学习上下文?

您从设备接收语音命令开始。您无法在 Amazon Echo 上播放视频,因此当用户要求设备播放特定标题时,这缩小了设备的选择范围。设备还会查看用户的个人偏好,包括之前的请求以及随着时间推移向设备发出的其他命令。这就是机器学习发挥作用的地方。

即使在存在明显的背景噪音的情况下,如何提高 Alexa 识别语音和理解单词的能力?

这是一个开放的问题,尽管我们正在取得进展。在过去从事语音技术开发工作后,我可以肯定地说,有几种不同的方法。一种是专注于清理或去除背景噪音,然后在剩余的数据上执行语音识别。但是,当您这样做时,副作用是您可能会删除一些与语音本身相关的数据。另一种技术是尽可能多地收集特定环境中的声音,并让系统映射或识别不同的声音——无论是背景噪音还是语音。挑战在于噪音种类繁多,很难识别每种噪音的来源,尤其是在电视打开时。

亚马逊如何使用其收集的有关 Alexa 用户的信息?

我只能谈谈 Alexa 的机器学习部分。机器学习依赖于从 Alexa 用户收集的数据。我们不使用所有这些数据——我们注释某些类型的数据,以便教导 Alexa 识别不同的声学线索、音调(男性和女性)和口音。我们的客户是多样化的,我们希望 Alexa 能够识别不同的用户。我们不能构建一种仅适用于一种声音的技术。

亚马逊如何解决人们可能对 Alexa 产生的隐私担忧?

Alexa 将其拥有的关于用户的信息存储在云端,而不是设备本身,例如 Echo 或智能手机。客户可以使用 Alexa 应用程序和亚马逊网站上的 “管理您的内容和设备” 页面删除他们希望 Alexa 忘记的任何信息。例如,您可以查看与 Alexa 的语音互动,并通过访问 Alexa 应用程序中“设置”中的“历史记录”来删除与您的帐户关联的特定录音。

© . All rights reserved.