为何Siri不听取数百万残疾人士的声音

语音识别系统承诺给世界带来变革。但对于超过九百万患有声音疾病的人来说,这个世界遥不可及

艾玛·马特斯已经放弃了Siri。无论马特斯多么清晰或缓慢地说话,苹果iPhone标志性的语音识别技术对这位来自佛罗里达州塞米诺尔的69岁女性都毫无帮助。她患有痉挛性发声障碍,这是一种罕见的神经系统声音障碍,会导致声带不自主地痉挛,产生颤抖和不稳定的 speech。她汽车的蓝牙语音系统也无法理解她。

像Siri这样的语音界面现已在数百万种产品中销售,从智能手机和福特汽车到智能电视和亚马逊Echo。这些系统承诺让人们通过简单的语音命令来查看天气、锁上房门、在驾驶时进行免提通话、录制电视节目以及购买最新的碧昂丝专辑。它们标榜摆脱按钮和键盘的束缚,并承诺近乎无限的可能性。

但是,这项闪闪发光的新技术无法被美国超过九百万患有像马特斯这样的声音障碍的人以及口吃患者或患有脑瘫和其他疾病的人使用。“语音识别器是针对钟形曲线中心点的大多数人。其他人都在边缘,”位于硅谷的公司Sensory的首席执行官托德·莫泽解释说,该公司在三星Galaxy手机和蓝牙耳机等各种消费产品中都有语音识别芯片。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。


更糟糕的是,对像马特斯这样的人的帮助可能还遥遥无期。尽管语音识别越来越准确,但专家表示,它仍然不太擅长识别许多非典型的声音或语音模式。研究人员正在尝试开发更具包容性的语音识别器,但这项技术还有严重的障碍需要克服。

莫泽所说的“边缘”人群包括大约4%的美国人口,他们在过去12个月中,由于言语、语言或声音问题,有一周或更长时间难以使用他们的声音,根据美国国立耳聋和其他交流障碍研究所的数据。构音障碍,这是一种缓慢或口齿不清的言语,可能是由脑瘫、肌肉萎缩症、多发性硬化症、中风和各种其他疾病引起的,也是这个问题谱的一部分。而且这个问题遍及全球。例如,脑瘫影响了新西兰因弗卡吉尔的迈克·哈米尔的言语,他出生时就患有这种疾病,并在30多岁时出现吞咽和喉咙控制困难。因此,他的言语常常是紧张和不稳定的。

美国口吃基金会主席简·弗雷泽说,口吃患者在使用语音识别技术(如自动电话菜单)时也遇到困难,因为这些系统无法识别他们不连贯的言语。

还有其他问题,例如声带麻痹或声带囊肿,这些问题通常不太严重,而且通常是暂时的。但这些疾病仍然会降低语音识别的准确性。例如,在2011年发表在生物医学工程在线上的一项研究中,研究人员使用传统的自动语音识别系统来比较正常声音和六种不同声音障碍声音的准确性。该技术在识别正常受试者的言语时准确率达到100%,但对于患有不同类型声音疾病的患者,准确率在56%到82.5%之间。

对于患有严重言语障碍(如构音障碍)的个体,根据多伦多康复研究所计算机科学家、多伦多大学助理教授弗兰克·鲁兹西克在语音交流发表的研究,这项技术的单词识别率可能比一般人群低26.2%到81.8%。鲁兹西克说:“患有这些疾病的人之间存在很多差异,因此很难缩小到一个适用于所有人的模型。”

这种声音变化正是Siri和蓝牙等系统难以理解患有言语和声音障碍人士的原因。大约在2012年,公司开始使用神经网络来驱动语音识别产品。神经网络从各种语音样本和可预测的模式中学习。像Siri和Google Now这样的智能个人助理在2011年和2012年首次推出时并不是那么强大。但是,随着它们从许多不同的说话者那里获得更多数据,它们变得越来越好,莫泽说。现在,这些系统可以做更多的事情。消费者技术协会首席经济学家兼高级研究主管肖恩·杜布拉瓦克说,许多公司都标榜单词错误率在8%或更低。

亚马逊Echo于2015年6月广泛上市,它有一个名为Alexa的语音识别器,旨在执行特定功能,例如从当地广播电台获取新闻、访问音乐流媒体服务以及在亚马逊上订购商品。该设备还具有用于闹钟和计时器以及购物和待办事项列表的语音控制。随着时间的推移,亚马逊一直在增加更多功能。

但是,言语和声音障碍的性质是它们产生随机和不可预测的声音,而语音识别系统无法识别模式来进行训练。当被要求置评时,苹果和亚马逊拒绝直接回应这个问题,但通过电子邮件表示,总的来说,他们打算改进他们的技术。微软开发了语音识别个人助理Cortana,该公司通过一位发言人表示,公司在设计和构建产品和服务时,力求“从一开始就有意包容所有人”。

为了找到解决方案,公司和研究人员将目光投向了唇读,唇读已被一些聋人和听力障碍人士使用了多年。唇读技术可以提供额外的数据,使语音识别器更加准确,但这些系统仍处于早期阶段。在英国东安格利亚大学,计算机科学家理查德·哈维和他的同事们正在研究唇读技术,当语音识别不足以确定一个人在说什么时,该技术可以拼出言语。“仅靠唇读并不能让你更好地处理言语障碍。但它有帮助,因为你可以获得更多信息,”哈维说。

研究人员说,一些产品和系统可能更容易学习不寻常的声音。银行的语音自动客户服务电话系统或汽车的免提电话系统有有限的词汇量——因此,哈维假设,构建一套算法来识别固定的一组单词的不同版本和发音会更容易。但是这些系统仍然使用一些独特的词,如用户的名字,这些词必须被学习。

杜布拉瓦克说,另一种可能性是,当设备的语音识别系统没有立即理解用户时,设备可以具有向用户提出澄清问题的能力。

设计更好的神经网络最终可能成为言语障碍人士解决方案的一部分——这只是一个拥有足够数据的问题。“可用的数据越多,这项技术就会变得越好,”莫泽说。这已经开始发生在不同的语言和口音的语音中。据苹果公司称,Siri到目前为止已经学习了39种语言和语言变体。

但是,随着这项技术以其目前的状态越来越深入我们的日常生活,像鲁兹西克这样的研究人员警告说,大量的言语和声音问题患者将被排除在具有声控安全系统、灯开关和恒温器的联网“智能”家居之外,他们可能无法使用无人驾驶汽车。“这些人需要能够参与我们的现代社会,”他说。到目前为止,科技公司为包容他们所做的尝试还只是说说而已。

Emily Mullin is a science journalist who is interested in how biology is shaping the future. She previously covered biotech for OneZero, Medium’s tech and science publication. Before that, she was the associate editor for biomedicine at MIT Technology Review. Her work has also appeared in the Washington Post, New York Times, Wall Street Journal, National Geographic and STAT.

More by Emily Mullin
© . All rights reserved.