语音识别软件何时才能真正好用?

想想如果语音助手总是能一次性理解指令或问题,我们能节省多少时间

杰伊·本特

加入我们的科学爱好者社区!

早在2010年,当时在国家公共广播电台工作的马特·汤普森在一篇专栏文章中预测,“在不久的将来,自动语音转录将变得快速、免费且体面。”他将那个时刻称为“Speakularity”,这是对发明家雷·库兹韦尔关于“奇点”愿景的巧妙引用,在奇点中,我们的思想将被上传到计算机中。汤普森预测,获得可靠的自动语音识别 (ASR) 软件将改变记者、律师、营销人员、听力障碍人士以及所有处理口语和书面语言的人的工作。

由于渴望任何能够将我从采访期间实时打字记录的繁琐过程中解放出来的技术,我被汤普森的预测深深吸引。但是,虽然他在广播领域的辉煌职业生涯仍在继续(他现在是调查报道中心的首席编辑,包括其节目Reveal),但“Speakularity”似乎仍然遥遥无期。

当然,已经取得了重要的进展。包括 Otter、Sonix、Temi 和 Trint 在内的几家初创公司提供在线服务,允许客户上传数字音频文件,并在几分钟后收到计算机生成的文字稿。在我的音频制作人生活中,我每天都使用这些服务。它们的速度不断提高,成本不断下降,这很受欢迎。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。


但是准确性是另一回事。 2016 年,微软研究院的一个团队宣布,它已经训练其机器学习算法,从标准的录音语料库中转录语音,准确率高达 94%。在微软的测试中,专业的真人转录员的表现并不比该程序好,这导致媒体庆祝语音识别中人类和软件之间“平价”的到来。

问题是,最后的 6% 带来了很大的不同。我可以根据痛苦的经验告诉你,清理一份准确率达 94% 的文字稿,可能几乎与手动转录音频花费的时间一样长。而且,在突破四年后,Temi 等服务仍然声称准确率不超过 95%——而且这仅适用于清晰、无口音的语音录音。

为什么准确性如此重要?好吧,举一个例子,越来越多的音频制作人(包括我自己)正在遵守互联网可访问性指南,发布他们播客的文字稿——没有人想分享一份每 20 个单词中就包含一个错误的文字稿。想想如果 Alexa、Bixby、Cortana、Google Assistant 和 Siri 等语音助手每次都能理解每一个问题或命令,人们可以节省多少时间。

ASR 系统可能永远无法达到 100% 的准确率。毕竟,即使在母语中,人类也并非总是能流利地说话。语音充满了同音异义词,理解总是取决于上下文。(我见过转录服务将“iOS”渲染为“ayahuasca”,将“your podcast”渲染为“your punk ass”。)

但我所要求的只是 1% 或 2% 的准确率提高。在机器学习中,降低算法错误率的主要方法之一是为其提供更高质量的训练数据。因此,对于转录服务来说,找出以隐私友好的方式收集更多此类数据至关重要。例如,每次我清理 Trint 或 Sonix 文字稿时,我都在生成新的、经过验证的数据,这些数据可以与原始音频匹配,并用于改进模型。如果这意味着随着时间的推移错误会减少,我很乐意让公司使用它。

获得此类数据无疑是通往“Speakularity”的途径之一。鉴于我们每天与机器进行的对话数量不断增加,以及创建的音频数量不断增加,我们不应再将像样的自动转录视为奢侈品或愿望。这绝对是必需品。

韦德·劳什是关于技术、文化、好奇心和未来的播客 Soonish 的主持人和制作人。他是播客集体 Hub & Spoke 的联合创始人,也是为印刷、在线和广播媒体(如MIT Technology Review、Xconomy、WBUR 和 WHYY)撰稿的自由记者。他的新书Extraterrestrials由 MIT 出版社出版。

更多作者:韦德·劳什
大众科学 Magazine Vol 322 Issue 5本文最初以“寻求听力更好的软件”为标题发表于大众科学杂志 第 322 卷第 5 期(),第 24 页
doi:10.1038/scientificamerican0520-24
© . All rights reserved.