去年,当苹果公司发布 iPhone 4S 时,这款新手机看起来和之前的手机一模一样。它有一个更好的摄像头和一个更快的芯片,但它只能做一件新事:Siri。
现在大家都知道,Siri 是一款语音助手,可以接受口头指令。无需培训:只需按住“主页”按钮并随意讲话即可。
Siri 点燃了文化世界。YouTube 上出现了恶搞视频、操作指南和安卓手机的模仿应用。评论员提出了在公共场合使用手机的新礼仪,因为现在人们即使在没有通话时也在对着手机讲话。语音识别变得风靡一时;突然,它出现在电视机中,当然也出现在竞争对手的手机中。在炒作的高峰期,看起来我们与小工具互动的方式已经永远改变了。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
然后——反弹来了。
“Siri 是苹果公司未能兑现的承诺”,这是科技网站 Gizmodo 的头条新闻。人们抱怨说,有时你口述了一整段话,手机会思考,然后输入——什么都没有。现在已经有一项集体诉讼,声称苹果公司做了虚假声明。(据苹果公司称,Siri 仍处于测试阶段。)
发生了什么事?Siri,电子产品的救星,怎么会变成这样一场闹剧?
大家都没有注意到的是 Siri 这个虚拟助手和 Siri 这个语音识别引擎之间的区别。事实证明,这两个不同的功能在成功率方面有着天壤之别。
Siri 助手部分来自一家名为 Siri 的公司,苹果公司收购了这家公司。(它是一家从军事人工智能项目中分离出来的公司,最终落户 SRI 研究公司。明白了吗?)
但是听写功能——文本到语音部分——是由 Nuance 公司提供的,该公司为我们带来了 Dragon NaturallySpeaking 等软件。
当您听写时,您会生成一个音频文件,该文件被传输到 Nuance 的服务器;他们分析您的语音并将文本发送回您的手机。这就是为什么当您的互联网信号不好或蜂窝网络拥堵时,Siri 可能会表现不佳。(当您使用 Wi-Fi 时,听写效果会好得多。)
这种往返于远程服务器传输数据的要求是 Siri 听写才能令人沮丧地不准确的核心原因。
听写功能也面临其他挑战。不规则的背景噪音、风和嘴巴到麦克风的距离变化都会使在手机上实现完美的转录成为一项艰巨的任务——而且结果远不如您使用 PC 听写软件获得的结果准确,PC 听写软件没有这些困难。使用 Siri(以及安卓手机上甚至不太完善的听写功能),您可能每段话都需要纠正两到三个错误。
桌面听写软件的表现要好得多——接近 100% 的准确率——因为它没有任何这些特殊挑战。而且在您的 PC 上,您可以训练软件仅识别一种声音:您的声音。手机上没有训练。计算任务非常困难。
批评者有道理。我们已经习惯了每次都能正常工作的消费技术:电子邮件、GPS、数码相机。然而,依赖蜂窝互联网的听写技术只能勉强工作。而且在当今时代遇到这种情况可能会让人感到震惊。
但我们不要把 Siri 和脏水一起倒掉。Siri 的“虚拟助手”部分——所有设置闹钟、给某人打电话、给某人发短信、记录约会的命令——都运行稳定。即使您只使用“在...叫醒我”、“呼叫”、“短信”和“提醒我”等基本命令,您也可以节省时间和笨拙的操作。
自由形式的蜂窝听写是一项尚未成熟的技术。但作为控制我们电子设备的界面,它使语音的未来像一年前 Siri 承诺的那样光明。
只需等待她走出测试阶段。
大众科学在线
提高 Siri 语音识别率的八种方法:ScientificAmerican.com/aug2012/pogue