在过去的几年里,语音识别软件悄然蔓延到我们生活的方方面面。它存在于客户支持热线和航空公司预订系统的另一端。它内置于 Microsoft Windows 中。它是触摸屏手机(如 iPhone 和 Android)的替代文本输入方法。但让我们面对现实:大多数使用此软件的人都希望他们不必使用它。
这是因为语音识别通常是 B 计划:一种比打字或真正的人工对话稍微好一点的替代方案。公司在其电话系统中使用它,因为它比雇用真人更便宜。许多对着电脑口述的人这样做是因为他们必须这样做,也许是因为残疾。语音识别正在触摸屏手机上兴起,因为在屏幕键盘上打字既慢又繁琐。
那么,要使语音识别不仅仅是一种权宜之计,需要做些什么呢?我们离《星际迷航》中从不出错的对话式电脑的理想有多近?
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的有影响力的故事的未来。
好吧,我们正在接近目标。事实证明,经过十年的收购、合并和贪污丑闻,只剩下一家主要的语音识别公司:Nuance Communications。它销售适用于 Windows、Macintosh 和 iPhone 的唯一商业听写软件。其技术驱动着奥迪、宝马、福特和梅赛德斯汽车以及摩托罗拉、诺基亚、三星、Verizon 和 T-Mobile 手机中的语音命令系统。它为声控玩具、GPS 设备和自动取款机提供动力,并在 AT&T、美国银行、CVS 和许多其他公司接听电话。
Nuance 每年都会发布其消费者听写程序的新版本,例如 Dragon NaturallySpeaking。通常它不会添加许多新功能。相反,它将大部分资源用于一个目标:提高准确性。
最初,您必须通过对着麦克风朗读 45 分钟的脚本来训练这些程序,以便程序可以学习您的声音。随着技术的多年改进,训练时间从 20 分钟缩短到 10 分钟,再到 5 分钟——现在您根本不必训练软件。您只需开始听写,即可获得(通过我的测试)99.9% 的准确率。每隔几页仍然会错一个词,但这令人印象深刻。
语音工程师使用各种技巧来提高准确性。最早的听写程序要求您在每个单词后暂停;该软件不知道如何区分“their”、“there”和“they’re”。但随着时间的推移,功能更强大的 PC 处理器使连续语音分析成为可能。如今,我们鼓励您用更长的短语说话,以便软件有更多的上下文来分析准确性。
另一个技巧:去年,Nuance 为 iPhone 提供了一个免费的听写应用程序,名为 Dragon Dictation。您所说的内容会传输到该公司的服务器,在那里进行分析,转换为文本,并在几秒钟内发送回您的屏幕。
但没有人知道的是,该公司存储了数百万个语音样本,实际上创建了一个巨大的不同声音、年龄、语调和口音的仓库,用于测试不同的识别算法。
所以,是的,技术正在进步。但读者经常问我:“如果听写软件这么好,我可以用它来转录电话和采访吗?”
答案仍然是否定的。除非您对着麦克风说话,没有背景噪音,最好没有口音,否则该软件不太好用。您仍然必须说出所有标点符号(“逗号”),就像这样(“句号”)。天知道,我们人类彼此理解已经够困难了;要求计算机完全正确有点过分。难怪今天的听写应用程序仍然会犯诸如将“mode import”误认为“modem port”,将“move eclipse”误认为“movie clips”,以及将“oak wrap”误认为——好吧,你懂的。
所以,不,键盘不会在我们的有生之年消失。《星际迷航》式的对话式计算仍然遥遥无期。当然,99.9% 的准确率非常好——但在达到 100% 之前,语音识别技术仍然是 B 计划。