多语言机器

市售软件提供的“要点”翻译准确率仅为 70% 到 80%。统计分析技术能否提高这一性能?

盟军在二战中取得胜利后,紧接着又面临冷战。英国和美国的密码破译者,因计算机辅助在二战中取得的胜利而备受鼓舞,他们寻求新的突破,将机器的处理能力从密码转向语言。逻辑认为,破解轴心国秘密通讯的数学技术,对于从堆积如山的俄文科技和新闻文本中收集情报可能具有极大的价值。

50多年过去了,尚未出现万无一失的《星际迷航》式通用翻译器技术。然而,现在正是实现这种自动化翻译的成熟时机。全球翻译服务市场规模已超过 50 亿美元,并且随着互联网日益普及,预计到 2006 年需求将增长到 76 亿美元。

为了利用机器破解语言密码,最新的尝试之一是,一种原型翻译技术的开发者希望以一种截然不同的技术挑战该行业。它本质上是将书籍放入搅拌机中,观察不同语言中的比较短语如何重新组合在一起。这种统计技术以其发明者纽约市 Meaningful Machines 的 Eli Abir 的名字命名为 EliMT,它可能不仅是提高机器翻译(或 MT)准确性的关键,而且对于快速翻译目前被企业界忽视的语言也至关重要。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保未来能够继续刊登关于塑造当今世界的发现和思想的有影响力的报道。


卡内基梅隆大学的机器翻译专家 Jaime Carbonell 声称:“EliMT 方法显然是近几年,甚至可能是自机器翻译诞生以来,最有希望且理论上最重要的 MT 发展成果。”

翻译的难题

行业领导者 Systran 通过 Altavista 的 Babelfish 或 Google 提供的免费机器翻译服务,可以实现所谓的要点翻译,即翻译提供基本思想,但错误率在 20% 到 30% 之间。对于商业应用而言,润色要点翻译中的错误可能非常耗时:聘请专业人工翻译的费用约为每小时 20 美元,而且许多翻译人员都非常忙碌,以至于当他们有空接手工作时,可能为时已晚,无法在竞争激烈的国际金融领域发挥作用。

大多数商业 MT 系统的工作方式与人们在图书馆中寻求翻译外语的方式非常相似。首先,系统分析不熟悉的文本。然后,他们参考相应的双语词典和语法指南。在某种程度上,这些“基于规则”的方案类似于某人一旦知道代码规则,就会如何阅读编码文本。

然而,在 20 世纪 50 年代,科学家们在这一假设下工作后很快意识到,自然语言比人工代码复杂得多。这在很大程度上是由于一个词的含义随语境变化的问题。“cool”这个词在表示温度时,与 Fonzie 使用时意思不同。一个关于早期粗糙的机器翻译尝试的伪经故事是,成语“心有余而力不足”从英语翻译成俄语,然后再翻译回来,结果变成了“伏特加酒不错,但肉却腐烂了。”

虽然基于规则的 MT 自那时以来有了显著改进,但它并非万无一失。开发和调试任何两种语言的翻译算法可能需要一个团队花费数年时间,而且每种语言对都是一项全新的工作——英汉系统不一定能帮助实现汉英或英斯瓦希里语的翻译。由于大约 20 到 30 种语言在经济上至关重要,因此全球金融大约需要 400 到 800 种语言对。到目前为止,Babelfish 上只有 19 种语言对可用,其他基于规则的产品也没有提供更多选择。

统计学与词语

EliMT 技术采用不同的策略。想象一下,一群人走进图书馆,查找俄语原版小说《罪与罚》,然后借阅陀思妥耶夫斯基作品的所有英文译本。如果他们比较每个句子的翻译方式,他们可以统计发现,某些短语经常以相同的方式翻译。然后,他们可以通过回收旧翻译的片段,从不同的书籍中提取句子的两半,来拼接成新句子的翻译。“您不是逐字逐句地翻译,而是从句子片段翻译到句子片段,”Fluent Machines 董事长兼首席执行官 Steve Klein 说。

虽然人脑永远无法指望进行所涉及的心算,但计算机可以。这项技术遍历巨大的翻译数据库,并将许多句子分解开来。然后,它会寻找倾向于聚集在一起的词语。例如,在英语到德语的示例文本中,它注意到短语“kids love”与 223 次“kinder lieben”、201 次“kinder moegen”和 12 次“kleine kinder”相关联。由于“kinder lieben”出现频率最高,因此它将成为首选翻译,尽管 EliMT 也会根据需要记录备选翻译。整个句子和其他长词组之间的匹配优先于较短的构建块,因为较长匹配中的词语通常在上下文中得到正确翻译。

统计 MT 技术大约在 12 年前首次出现,但由于并非世界上的每个词组都可以在翻译中找到,因此数据库不完整的问题意味着统计 MT 依赖于基于规则的 MT 来填补空白。Abir 的新系统完全避开了基于规则的系统,而是完全依赖于统计解决方案,方法是查找句子片段之间的重叠部分。例如,虽然示例文本中没有短语“kids love chocolate”,但片段“love chocolate”却有;“liebe schokolade”有 256 次,“lieben schokolade”有 233 次。即使前者出现频率更高,但其“liebe”没有重叠,因此系统会选择排名第二的“lieben”。

更高的准确率?

Carbonell 表示,他相信 EliMT 可以在大约 12 到 18 个月内生成比 Systran 更准确的翻译——以至于他在评估后申请加入 Meaningful Machines 的董事会。此外,EliMT 无需等待数十年才能开发语言对规则,只需输入任何语言的翻译,即可快速准备一个临时的数据库。“对于 100 种语言,有 9,900 种语言对,虽然一种语言对的捷径很好,但 9,900 种语言对的捷径至关重要,”Carbonell 说。

EliMT 的另一个潜在优势是,与需要细致调整规则的基于规则的系统不同,随着更多数据的输入,它可以以完全自动化或人工辅助的方式稳步改进自身。此外,EliMT 应该能够准确识别其翻译中可能存在的错误,从而简化人工编辑过程。“对于其他翻译,您只知道它的准确率约为 70%,但您不知道是哪 70%,”Abir 说。“这个系统知道它不知道什么。”

此外,与其他 MT 系统不同,来自其他语言对的结果可能会通过匹配这些片段——Abir 称之为“意义块”或“语言的 DNA”——跨不同语言来帮助 EliMT 翻译。然而,这实际上可能有多大帮助,还需要进一步测试。

目前,EliMT 系统仍处于准备阶段,但该公司希望 जल्द ही 进行对比测试。核心数据库可能证明非常庞大,达到数百 GB,并且翻译很容易占用大量计算能力,因此该公司目前计划运营一台服务器,客户可以通过该服务器处理翻译。尽管如此,Klein 表示,他希望在未来帮助实现电子邮件、聊天室和移动设备等实时翻译应用。“目前,MT 仅占全球翻译市场的 2%,但我们预计,一旦供应——接近人工的自动化系统——最终到位,需求将会上升,”他说。


查尔斯·崔常驻纽约市。


© . All rights reserved.