软件识别技术令人惊叹,但还不够惊艳

完美认知计算机的梦想如何继续让我们心碎

加入我们的科学爱好者社区!

小工具博客可能会为百万像素和处理器速度而疯狂。但如果你想知道什么真正让大众眼花缭乱,请考虑一个很少被明确提及的功能:机器识别现实世界的景象和声音。

这一类别的成功案例代表了计算和软件的胜利。笔记本电脑和台式电脑上的语音转录非常准确。触摸屏上的手势通常是可靠的(毕竟,可识别的动作数量有限)。Xbox Kinect 和一些三星电视为我们带来了身体运动识别。Windows 7 和 8 中的手写识别是一个隐藏的瑰宝,无论您是印刷体还是草书。

诸如 Shazam 和 SoundHound 之类的手机应用程序可以识别在后台播放的流行歌曲,并显示其标题、表演者和专辑名称。Google Goggles 是谷歌为 Android 手机和 iPhone 开发的应用程序之一,它尝试视觉识别:拍摄书籍封面、DVD 盒、葡萄酒标签或绘画的照片,程序会立即显示该项目的 Google 搜索结果。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。


软件甚至可以挑选出视频中的面孔,而 YouTube 的版权保护算法可以将您的视频与已知的受版权保护的材料进行比较,以确保您没有发布来自某些电视网络的视频。

这一切都很棒。当它们工作时,声音、图像和运动识别真的像魔法一样。不幸的是,营销人员意识到了这一点。他们用无数其他基于计算机的识别功能来诱惑我们,这些功能的效果几乎与冷聚变一样。

几十年来,我一直反复成为所谓的识别失败心碎综合症 (RFHS) 的受害者。你买了一些东西,被它承诺的识别人类指令的能力所吸引,但它就是不够好用,不值得费心。

还记得 Clapper 吗?作为一个青少年,我买了一个。有时你拍两下手,灯就亮了,有时则需要尝试几次。我也买了一个 Whistle Switch。它可以通过识别声音来打开你的电器——在这种情况下,是一种高音的、可挤压的哨子。哦,它确实打开了灯——但茶壶、吱吱作响的仓鼠轮和响亮的喷嚏也一样。

可预见的是,我也被牛顿吸引了;700 美元购买的手写识别,可能五次中只有两次有效。

最近,三星一直在承诺其 Galaxy S4 手机可以将语音翻译成另一种语言,就像《星际迷航》一样。把它举到说法语的人面前,说“Où sont les toilettes?”,手机应该大声说出“Where is the bathroom?”(洗手间在哪里?)

事实上,三星刚刚在一个尚未成熟的识别技术之上又添加了一个。S Translator 应用程序甚至无法识别说外语的人的讲话,更不用说将它们转换成口语英语了。(我想三星也知道这一点。如果 S Translator 有用,它将成为广告中的头条新闻,而不仅仅是一个要点。)

在我们开始完全放弃这些功能之前,我们将抱有多少次希望?在我们退回多少产品之后,制造商才会开始在宣传其“神奇”能力之前稍微改进这些技术?

听着,我表示同情;基于软件的识别绝非易事。它不是一个具有一个正确结果的清晰问题,就像电子表格将数字加在一起一样。您正在要求软件处理模糊、含糊、可变的输入:声音、图片、动作、潦草的字迹。这就是为什么识别不是 100% 的原因。它不一致。难怪它经常让我们失望。

也许再过几十年,更好的传感器、更快的处理器、更大的数据集和实验最终会让我们摆脱持续的 RFHS。

与此同时,也许电子公司及其客户都应该稍微认识到:机器识别我们的世界是令人兴奋的,但仍在发展中。

大众科学在线
八款近乎神奇的识别应用程序:ScientificAmerican.com/jul2013/pogue

© . All rights reserved.