会说话的机器人何时出现?

几十年来,教会机器说话一直是人们的梦想。首先,我们必须弄清楚我们是如何知道我们所知道的关于语言的知识的

苏拉是世界上第一个会说话的机器人,她非常擅长对话——能说四种语言,不少——以至于一位参观她被创造出来的实验室的人类访客拒绝相信她不是真人。

唉,苏拉也不是一个真正的机器人,而是卡雷尔·卡佩克 1921 年的戏剧《R.U.R.》中的一个角色,这部戏剧将“机器人”一词引入了词汇。自从那次首次亮相以来,会说话的机器人似乎已经潜伏在每个角落,而不仅仅是在科幻小说中。

几乎在现代计算机发明后不久,研究人员就开始考虑对它们进行编程以使用语言。1950 年,计算机科学的创始人之一艾伦·M·图灵预测,到本世纪末,机器将能够流利地说英语,以至于很难区分人和机器——这一成就后来被称为图灵测试。四年后,乔治城大学和 IBM 的科学家联盟公布了 701 翻译机,该机器以每秒两条半行的速度成功地将 60 句俄语句子翻译成英语,这使得梦想出该机器所用技术的Leon Dostert 自信地报告说,流利的电子翻译器“五年,也许三年”后就能问世。


支持科学新闻事业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。


我们仍在等待。在经历了乐观的预测浪潮之后,随之而来的是令人沮丧的失败,成熟的会说话的机器人似乎并不比水下城市和火星殖民地等世纪中叶的幻想更接近。如果说有什么不同的话,那就是今天对会说话的机器人的渴望甚至更加强烈,因为我们希望用它来取代键盘,作为我们与数字服务和越来越小的电子设备的接口。

最近在人工语音方面的工作取得了喜忧参半的结果,它为我们提供了能够理解足够语言以发挥作用的机器(例如:谷歌翻译和接听您客户服务电话的自动语音),同时也让我们面对技术的局限性及其容易出现灾难性故障的情况(例如:谷歌翻译和接听您客户服务电话的自动语音)。其他项目正试图通过网络征集公众参与来解决这些缺点,以便我们能够更多地了解我们是如何选择词语的。

但技术不是唯一的问题,甚至不是最大的问题:语言已被证明比任何人想象的都更难理解。我们执行诸如选择歧义词的正确含义等任务的能力实际上是数百万年进化的成果。而且我们在完成这些壮举时,并不知道我们是如何做到的,更不用说如何将这项技能教给人工智能了。事实上,当科学家试图编纂语法并梳理相似术语之间的细微差别时,他们正在了解到含义可能是难以捉摸的,语言的结构对于我们这些掌握了它的人类来说仍然是一个谜。

旧规则,被打破
创造会说话的机器人的最早尝试出奇地简单:用语法规则对它们进行编程。这是 IBM 的 701 机器的策略,由于冷战时期对苏联的兴趣,该机器被指示在其首次公开演示中翻译俄语文本。1954 年发布该项目的 新闻稿 解释了该机器如何处理诸如词序等语言差异。例如,俄语 gyeneral mayor 的英文翻译是“major general”(少将)。每当机器遇到俄语单词 mayor 时,它的程序都会检查前一个单词。如果是 gyeneral,则 701 在生成英语翻译时会更改这两个单词的顺序。

如此简单的系统之所以能够工作,部分原因是 701 只认识 250 个俄语单词,因此对机器进行编程以识别其数据库中的每一对形容词和名词并不是一项繁重的工作。但是许多语言都有成千上万个单词,而英语可能有超过一百万个单词。如果我们做出合理的假设,即英语中有一半的单词有多种含义,那么程序员必须考虑 5000 亿个单词对。如果每秒处理一个单词对,那么编写该程序将需要将近 16,000 年。

碰巧的是,短语 gyeneral mayor 实际上是一种反常现象——俄语中的词序通常与英语中的词序相似,而与西班牙语(形容词通常放在名词之后)等语言不同。对于具有更大词汇量的机器来说,一个明显的解决方案是用诸如“形容词在英语和俄语中放在名词之前,但在西班牙语中放在名词之后”之类的规则对其进行编程,并附上一个例外规则列表。这种策略不仅会大大减少规则的数量,而且还允许系统处理新单词。问题是,解释例外的规则也可能存在例外。尽管语法书的出版商不愿承认这一点,但科学家们仍然没有找到一套能够完全解释英语、俄语或任何其他语言的抽象规则。

然而,这些系统的脆弱性不仅在于语法规则的不完善,还在于诸如感知单个单词的含义等看似简单的任务的复杂性。

多重含义的词语
会说话的机器人(以及会说话的机器人的工程师)遇到的首批问题之一是,我们在日常口语中使用的许多单词都是同音异义词:它们具有多种含义。“Bank”(银行)可以指金融机构(“约翰在银行兑现了一张支票”)或河流的岸边(“约翰游到最近的岸边”)。

当人们面对这样的句子时,很快就能找到正确的含义。加州大学圣地亚哥分校的心理语言学家 Cyma van Petten 和 Marta Kutas 在 1987 年一篇关于词汇启动效应的著名论文中证明了这种能力——遇到一个词会启动人们处理其他具有相关含义的词。他们发现,在人们遇到像“bank”(银行)这样的同音异义词仅半秒多后,只有与语境相关的含义相关的词仍然被启动(上面例句一中的“money”(钱)和例句二中的“river”(河流))。

这种正常处理的特征在某些人群中会崩溃。2002 年,塔夫茨大学的 Tatiana Sitnikova 领导的一个神经科学家团队发现,患有精神分裂症的个体无法抑制歧义词的语境不当含义:“本垒打”和“吸血鬼”在遇到“bat”(蝙蝠)后一秒多钟仍然被启动。

然而,这项工作只告诉我们,大多数人通过使用语境来快速解决同音异义词的问题。会说话的机器人的工程师面临的问题是,我们不确切地知道我们是如何做到这一点的。一种理论是我们利用同音异义词周围的词语。对金融机构的讨论通常包括诸如“check”(支票)和“cashed”(兑现)之类的词,而对河岸边缘的讨论包括诸如“swam”(游泳)和“water”(水)之类的词。我们可能只是笼统地了解到,某些词语预示着“bank”(银行)的一种含义,而其他词语则预示着另一种含义。

比同音异义词更难区分的是它们的近亲,多义词。与同音异义词一样,多义词也具有多种含义,但这些含义密切相关。比较一下“Jane Austen”(简·奥斯汀)在“Jane Austen wrote many books”(简·奥斯汀写了很多书)和“I read some Jane Austen this afternoon”(我今天下午读了一些简·奥斯汀的作品)中的两种含义。在第一个句子中,这个名字指的是作者;在第二个句子中,指的是她的作品。事实上,多义性不仅适用于所有作者,也适用于所有类型的媒体。鲁珀特·默多克购买了《华尔街日报》(公司),我也购买了(一份个人刊物)。

再一次,语境显然很重要,但这些区别是微妙且难以定义的。尽管“bank”(银行)的两种含义很少出现在同一个句子中,但“Jane Austen”(简·奥斯汀)经常与“Pride and Prejudice”(《傲慢与偏见》)出现在同一个句子中,无论这个名字指的是人还是她的作品,因此简单地求助于周围的词语并不总是奏效。人们如何辨别正确的含义仍然不是很清楚。

诸如“bank”(银行)和“Jane Austen”(简·奥斯汀)之类的词语之所以构成问题,是因为它们有多种含义。可怜的机器人不得不理清代词,代词可以有几乎无限多的含义。在句子“I wrote Pride and Prejudice”(我写了《傲慢与偏见》)中,代词“I”(我)指的是简·奥斯汀,只要是简·奥斯汀在说话。如果说话者是扮演简·奥斯汀的演员(例如《成为简·奥斯汀》中的安妮·海瑟薇),那么“I”(我)指的不是说话者,而是她扮演的人。没有简单的规则。第三人称代词更糟糕。在“She wrote Pride and Prejudice”(她写了《傲慢与偏见》)中,代词可以指几乎任何女性,无论谁在说话。机器人不能简单地忽略这些歧义,因为不知道句子是关于谁的,句子几乎没有任何意义。

也许解决代词难题最著名的模型是中心理论。该理论由哈佛大学的计算机科学家芭芭拉·格罗斯以及宾夕法尼亚大学的计算机科学家阿拉温德·K·乔希和哲学家斯科特·温斯坦在 20 世纪 80 年代和 90 年代开发,全面解释了句子如何在更广泛的语篇中组合在一起。它预测人们使用诸如“she”(她)之类的代词来指代前一句句子的中心——或最突出的角色——通常是它的主语。这一预测解释了为什么人们通常在句子“Jane Austen was an author. She wrote Pride and Prejudice”(简·奥斯汀是一位作家。她写了《傲慢与偏见》)中使用“she”(她)来指代简·奥斯汀。

对我们的机器人来说不幸的是,事情并不总是那么简单。心理语言学家詹妮弗·阿诺德在她 1998 年的博士论文中估计,只有 64% 的主语代词指的是前一句的主语。此外,追溯到语言学家凯瑟琳·加维和约翰·霍普金斯大学的神经科学家阿方索·卡拉马扎在 1974 年发表的开创性论文,大量研究表明,人类对代词的解释的语境线索可能令人非常困惑。例如,在我和哈佛大学心理学家杰西·斯内德克最近提交发表的作品中,我们报告说,大多数人期望“Sally frightened Mary because she is strange”(莎莉吓坏了玛丽,因为她很奇怪)中的代词指的是莎莉,但在“Sally feared Mary because she is strange”(莎莉害怕玛丽,因为她很奇怪)中指的是玛丽。人们如何做出这些决定仍然未知,但他们这样做却很快。2007 年,阿姆斯特丹大学的心理语言学家约斯·范·伯克姆领导的一个研究团队要求人们阅读遵循或不遵循预期模式的句子,例如“Sally frightened John because she/he is strange”(莎莉吓坏了约翰,因为她/他很奇怪),同时监测他们的大脑波。大脑波显示,当代词与句子的整体偏见不符时(在上面的句子中是“he”(他)而不是“she”(她)),就会出现额外的处理的明显特征。

语言的语料库
鉴于词语令人眼花缭乱的细微差别,科学家需要找到帮助机器人做出更好预测的方法。许多人转向语言统计,将大量的原始材料加载到他们的文字机器中,然后处理数字。他们首先向机器输入大量的文本集合,称为语料库——有时超过十亿个单词。然后,机器将文本分解为 n 个连续单词的片段,称为 n 元语法。通过查看它摄取的所有 n 元语法,机器可以了解哪些单词倾向于与哪些其他单词一起使用。例如,它开始知道,短语“tall man”(高个子男人)在英语中相当常见(谷歌搜索结果为 1,320,000 次),而“man tall”(男人高)则相对罕见(谷歌搜索结果为 205,000 次)。同样,机器可能会了解到,在大多数以“bank”(银行)开头是“swam”(游泳)的句子中,它意味着“river edge”(河岸)。701 实际上使用了 n 元语法(更具体地说,是双词二元语法)。

统计系统具有显着的优势,因为程序员不需要制定明确的规则,例如“‘general’(将军)在 ‘major’(少校)之前”,甚至不需要抽象规则,例如“形容词在名词之前”。统计系统只是学习哪些单词在哪些其他单词之前出现。更复杂的实现还会跟踪诸如词性之类的信息,帮助语言机器学习到,“check”(支票)作为名词而不是动词使用时,是“financial institution”(金融机构)的更好预测词。

研究还表明,统计学习——识别环境中模式的能力——可能有助于人类吸收语言,这使得该方法对机器人设计师特别有吸引力。罗切斯特大学的心理学家 Jenny Saffran、Richard Aslin 和 Elissa Newport 在 1996 年的一项研究表明,即使是八个月大的婴儿也可以学习三元语法概率——三个单词或音节按顺序出现的可能性。研究人员让婴儿听一连串的胡言乱语音节,如 bidakupadotigolabi。三元语法 bidakupadotigolabi 都非常常见;其他三元语法,包括 dakupa,则不太常见。在听了这些胡言乱语的字符串两分钟后,婴儿可以分辨出常见和不常见的三元语法之间的区别(他们听稀有的三元语法的时间更长,好像它们是新的);作者将这种能力解释为儿童可以通过这种方式学习词语边界的证据。同样,2010 年,圣路易斯大学的心理学家 Christopher Conway 领导的一个团队发现,统计学习能力较强的人也更擅长在嘈杂的条件下辨别语音。

尽管 n 元语法机器不是科学家正在尝试的唯一类型的语言系统,但工程师喜欢使用它们,因为获取大型语料库很容易。例如,谷歌发布了一个包含超过万亿个单词的网络语料库。但是,为了让语料库理清词义和代词指代的细微之处,句子必须被标记——也就是说,用每个单词的定义或词性进行标记——而大多数基本语料库都没有被标记。最大的意义标记语料库是 SemCor(语义关联的缩写)。SemCor 在普林斯顿大学创建,包含 360,000 个单词。就标记所有这些单词所需的工作量而言,这是一个非常大的语料库,但对于会说话的机器人的工程师来说,它仍然很小。

我们可以通过查看谷歌开发的两个此类系统来了解 n 元语法机器随之而来的优势和劣势。其中一个系统是名为谷歌翻译的统计翻译器,它以已经翻译成多种语言的文档为食。(谷歌翻译的原始饲料主要由联合国文件组成,这些文件以多种语言发布。)由于一种语言中的同音异义词通常用另一种语言中的两个词来表示(“bank”(银行)在西班牙语中是 orillabanco),因此用于训练统计翻译机器的双语语料库可以代替意义标记语料库。翻译器可以学习区分包含英语“bank”(银行)和西班牙语 orilla 的句子(最可能是带有“swim”(游泳)一词的句子)与包含英语“bank”(银行)和西班牙语 banco 的句子(带有“cashed”(兑现)和“check”(支票)等词的句子)。

谷歌 Scribe——一种在您键入时预测您的下一个单词的工具——是 n 元语法机器的另一种变体,旨在帮助生成句子。键入“major”(主要),它会预测以下内容:“role”(角色)、“cities”(城市)、“and”(和)、“role in”(在……中的作用)、“problem”(问题)、“histocompatibility complex”(组织相容性复合体)、“league”(联盟)。所有这些都是常见的组合(甚至是“major histocompatibility complex”(主要组织相容性复合体),它在谷歌上的搜索结果超过一百万次)。

大量可能性指出了当今 n 元语法机器的一个主要局限性。由于它们仅跟踪几个单词长度的语境,因此如果相关单词之间有太多空间,它们就会崩溃。键入“He swam to the bank”(他游到岸边),谷歌翻译会返回 Él nadó hasta la orilla,这是正确的。但是,尝试“He swam to the nearest bank”(他游到最近的银行),您会得到 Él nadó hasta el banco más cercano,这意味着“他游到最近的金融机构”。双语语料库对于区分多义词和代词也没有太大帮助。一种语言中的许多多义词在其他语言中也是多义词。

同样,谷歌 Scribe 和其他简单的 n 元语法机器既不能处理新词,也不能生成有用的句子。即使是年幼的孩子也可以在句子中使用新词,但是当您键入新词“wug”时,谷歌 Scribe 没有任何建议。而且由于它只学习短语的统计信息,因此它生成的句子逐字逐句是连贯的,但却胡言乱语。例如,在谷歌 Scribe 中键入“Google”(谷歌),然后在每个单词之后选择它给出的第一个建议,您最终会得到“Google Scholar search results on terms that are relevant to the topic of the Large Hadron Collider at the European level and the other is a more detailed description of the invention”(关于欧洲大型强子对撞机主题的相关术语的谷歌学术搜索结果,另一个是对该发明的更详细描述)。这种 n 元语法系统根本无法将句子的开头与结尾联系起来。

朝着会说话的机器人迈进
改进 n 元语法机器最简单的方法之一是让它们使用更长的序列。这项任务比听起来更困难。假设一种语言只包含 10,000 个单词。为了包含每个可能的三元语法,文字机器必须学习一万亿个组合——10,000 的三次方。存储每个可能的六个单词的序列(仍然不够长以完成工作)将需要 1024 个组合——大约 10 万亿艾字节的信息。2009 年,地球上所有的数字信息估计只有 500 艾字节。

但是,即使它得到了一个巨大的意义标记语料库的支持,这个聪明的机器人学生仍然需要吸收一些街头智慧,才能权威地说话。在 1960 年的一篇经典论文中,希伯来大学的哲学家耶霍舒亚·巴希勒尔认为,求助于周围的词语永远无法解释人们如何知道“the box was in the pen”(盒子在笔筒里)中的“pen”(笔筒)必须指代围栏,而不是书写工具;这种推断不是来自语境,而是来自我们知道盒子不适合放在书写工具中的知识。

为了帮助机器人获得真实世界经验的好处,同时弥合数据差距,最近的几个基于 Web 的项目试图征集公众参与。卡内基梅隆大学的计算机科学家(由安东尼·托马西克领导)即将推出一款名为 Jinx 的互联网游戏。向两名玩家展示一个句子语境中的单词(例如,“John cashed a check at the BANK”(约翰在银行兑现了一张支票)),并要求他们尽可能快地键入相关单词。如果他们都想出了相同的单词,他们就会得分。研究人员可以使用这些猜测,尤其是在玩家意见一致时,来标记歧义词的含义,从而创建一个比 SemCor 更大的标记语料库。

我自己的代词侦探 (gameswithwords.org/PronounSleuth) 是一个网站,要求志愿者阅读包含代词的句子,并决定代词指代谁,例如“Sally went to the store with Mary. She bought ice cream”(莎莉和玛丽一起去商店。她买了冰淇淋)。对于某些句子,玩家之间的意见相当一致;而在另一些句子中,则不太一致。我们发现,为了区分一种句子与另一种句子,我们需要来自 30 到 40 人的数据。到上次统计时,已有超过 5,000 名参与者判断了几个句子。我和斯内德克最近提交了一篇论文,其中包含 1,000 个句子的数据——相对于机器人理清代词细微之处所需的数量而言,这个数字很小,但到目前为止,它是目前可用的此类句子的最大数据库。

短语侦探 (anawiki.essex.ac.uk/phrasedetectives) 由英格兰埃塞克斯大学的计算机科学家于 2008 年创建,它采用了一种更传统的方法,向玩家展示一本书或文章的节选。当参与者遇到代词时,他们会被要求识别代词指代的单词。短语侦探还询问玩家关于其他指称表达的问题。例如,实验者对玩家是否认识到在“Jane Austen wrote Pride and Prejudice. The book was very popular”(简·奥斯汀写了《傲慢与偏见》。这本书非常受欢迎)这段话中,“the book”(这本书)指的是《Pride and Prejudice》(《傲慢与偏见》)感兴趣。到目前为止,短语侦探的玩家已经完成了 317 份文档的工作。总的来说,来自这些项目的数据将使我们能够构建和测试理论,这些理论有一天可能会引导我们走向使用代词的机器人。

但是,何时才能实现,这是一个悬而未决的问题,而且我们的期望可能和以往一样不切实际。尽管了解了障碍,但谷歌机器翻译小组负责人弗朗茨·约瑟夫·奥克在最近接受《洛杉矶时报》采访时表示,《星际迷航》通用翻译器式的即时语音到语音翻译应该“在不久的将来”成为可能。但是,建造一个会说话的机器人将需要理解语言本身的秘密,而这可能被证明与《星际迷航》中的任何其他事物一样难以捉摸。

(延伸阅读)

  • 动词中的隐含因果关系。C. 加维和 A. 卡拉马扎,载于Linguistic Inquiry,第 5 卷,第 3 期,第 459–464 页;1974 年夏季。

  • 8 个月大婴儿的统计学习。J. R. 萨夫兰、R. 阿斯林和 E. 纽波特,载于Science,第 274 卷,第 1926–1928 页;1996 年 12 月 13 日。

  • 词语和规则:语言的要素。史蒂芬·平克。基础书籍出版社,1999 年。

  • 纸张一直是我的毁灭:多义含义的概念关系。Devora E. Klein 和 Gregory L. Murphy,载于Journal of Memory and Language,第 42 卷,第 4 期,第 548–570 页;2002 年 11 月。

  • 词汇语义发展中的意义转变。H. Rabagliati、G. F. Marcus 和 L. Pylkkänen,载于Cognition,第 117 卷,第 1 期,第 17–37 页;2010 年 10 月。

  • 儿童语言习得:对比理论方法。本·安布里奇和埃琳娜·V·M·利文编辑。剑桥大学出版社,2011 年。

约书亚·K·哈茨霍恩是麻省理工学院计算认知科学组的 Ruth L. Kirschstein NRSA 博士后研究员,也是《大众科学·思维》的特约撰稿人。他在他的实体实验室和 GamesWithWords.org 网站上进行研究。您可以在 Twitter 上关注他 @jkhartshorne。

更多作者:约书亚·K·哈茨霍恩
SA Mind Vol 22 Issue 1本文最初以“会说话的机器人何时出现?”为标题发表于SA Mind 第 22 卷第 1 期(),第 44 页
doi:10.1038/scientificamericanmind0311-44
© . All rights reserved.