关于支持科学新闻
如果您喜欢这篇文章,请考虑订阅我们的获奖新闻,以支持我们。 订阅。通过购买订阅,您将有助于确保关于发现和塑造我们当今世界的想法的具有影响力的故事的未来。
自2005年初推出以来,YouTube的访客(现在拥有互联网上第二大搜索引擎)已经上传了数亿个视频。对于大多数人来说,YouTube(谷歌在2006年末以16.5亿美元的价格收购了该视频共享网站)是分享个人视频、观看大学讲座、查阅“操作指南”短片和吸收流行文化片段(例如“怪人阿尔”扬科维奇对Lady Gaga的恶搞)的宝贵渠道。然而,直到最近,数千万聋人和听力障碍人士(仅在美国)无法充分利用YouTube,因为他们只获得了一半的体验。谷歌和YouTube的工程师正在努力通过改进可以自动为所有视频添加字幕的软件来解决这个问题,尽管这是一个艰难的过程。
谷歌的使命是组织世界信息,而网络上的许多信息是口头的而不是书面的,该公司研究科学家迈克·科恩说,他于2004年加入谷歌领导语音技术开发。电视在20世纪70年代初引入了隐藏字幕,并在20世纪80年代更广泛地普及,在很多方面,在满足聋人需求方面比网络更具优势,他补充说。
在大多数聋人社区中,“人们觉得,在花费多年时间赢得有关电视节目加字幕的法律诉讼之后,突然间世界已经转移到了YouTube,”科恩说。“我们希望以一种可扩展的方式为他们重新赢得这场战斗;必须使用技术而不是使用人工为每个视频输入字幕来完成。”
阅读字幕
谷歌在2006年在其Google Video网站上推出了手动为视频添加字幕的功能,并在2008年为YouTube添加了字幕功能。谷歌在2009年11月向YouTube推出了机器生成的自动字幕,此后一直在努力借助语音识别建模软件和大量数据来改进这项技术。据谷歌称,迄今为止,已有超过6000万个视频被自动添加了字幕。
该公司的语音识别模型具有声学、词汇和语言组件。声学部分是口语中发出的基本声音(例如所有元音和辅音)的统计模型。这是一个庞大而复杂的模型,因为这些声音通常会根据上下文而变化(也就是说,说话者成长的地方和所说的方言),科恩说。
词汇基本上是给定语言中的单词列表以及有关它们如何发音的数据(例如,考虑在发音“economics”中的“e”时可以接受的两个元音)。“对于像语音搜索这样的东西,我们有大约一百万个单词的词汇表,其中包含这些单词的正确发音以及发音的变体,”科恩说。
谷歌语音识别模型的语言组件是语言中可能使用的所有短语和句子的统计模型。这有助于自动字幕功能分析不同的单词通常如何组合在一起(例如,单词“go”之后通常跟着单词“to”),并根据该信息预测可能的配对。
大多数语音识别技术都是针对英语进行调整的,尽管该公司计划将自动字幕扩展到其他语言。目前,YouTube通过将自动字幕翻译成50多种语言来服务其全球受众。
但它有效吗?
自动字幕很容易被聋人社区接受,因为它使他们可以访问更多的YouTube内容。然而,对于聋人用户来说,此功能通常令人沮丧,如果字幕不准确,他们发现网页上的视频几乎没有用。“我喜欢自动字幕的想法,因为它使我能够理解许多我[否则]无法理解的YouTube短片,”纽约市查平学校17岁的高三学生阿里尔·沙克特说。沙克特有听力障碍,他补充说,“然而,现实情况是,自动字幕通常是错误的。我被迫观看无意义的陈述或字母/数字,而不是能够阅读实际的对话。”
自动字幕可能会因多种原因而变得混乱,特别是源分离。该软件必须区分音频流中的不同波形,以找到需要添加字幕的对话,而不是背景音乐或对话。这尤其困难,因为上传到YouTube的许多视频的音频质量很差,并且有很多背景噪音,谷歌高级语音识别研究科学家米歇尔·巴基亚尼说。“这是YouTube正在努力改进的地方,”他补充说。
自动字幕也很难转录带有非常专业的词语的语言,例如在学术讲座中使用的词语,科恩说,并补充说:“这些词语不是常用词汇的一部分,但如果错过了这些词语,您就会错过讲座的大部分含义。”
学习曲线
谷歌声称,其最新版本的自动字幕软件已将错误率降低了20%。事实上,早期版本的软件在视频中使用时无法识别“YouTube”这个词,YouTube字幕项目技术负责人肯·哈伦斯泰因说。哈伦斯泰因是聋人,他是负责提供、管理和显示字幕的基础设施的主要工程师,也是该公司字幕项目的主要推动力。
哈伦斯泰因回忆说,参与字幕项目的大部分团队都对第一个自动字幕的质量“非常担忧”。“我一遍又一遍地告诉他们,作为潜在的受益者之一,即使看到我们的算法生成的最不准确的字幕,我也会感到欣喜若狂,”他说。“大多数人没有意识到,电视直播活动[例如体育赛事]的字幕是由人工生成的,但仍然常常很糟糕,以至于无法辨认。但是,如果您了解上下文并且对双关语和同音异义词有很好的掌握,那么您就有机会弄清楚发生了什么——而且这比什么都没有要好得多。”
尽管生成高度准确的自动字幕很困难,但哈伦斯泰因说,他从一开始就相信YouTube的自动语音识别算法会随着时间的推移而改进,并且在该网站上使用的自动字幕越多,该公司的工程师就越有可能获得改进该技术的机会。“它的效果和我们所能做的一样好,我喜欢它的原因就在于此,”他补充说。“它不是完美的,也不假装是完美的,而且可能永远不会是完美的,但这只是我们在不断攀登的悬崖上迈出的一步。”
改进YouTube上数百万个视频都可以使用的自动字幕准确性的最佳方法是向更大、更丰富的口语模型提供更多数据,实质上是训练YouTube软件更好地解释口语并将其置于上下文中,科恩说。
在短期内,还有其他方法可以提高字幕质量。在YouTube上发布内容的人可以下载添加到其视频的自动字幕,更正任何错误,然后将字幕重新上传到YouTube。或者他们可以上传带有预先添加字幕的视频,哈伦斯泰因说,并指出了一个明显的激励措施——准确添加字幕的视频会在全球范围内获得“多得多的观看次数”。
你比机器更聪明吗? 参加我们伟大的意识竞赛:http://bit.ly/ke4n3L