1950年,艾伦·图灵设计了一个思想实验,此后一直被尊为机器智能的终极测试。他称之为“模仿游戏”,但大多数人称之为图灵测试。图灵预见到了我们现在所说的聊天机器人——伪装成人类的计算机程序——他设想了一场竞赛,其中机器试图欺骗审讯者,使其相信它是人类,回答关于诗歌的问题,并故意在算术上犯错误。今天,在公众眼中,图灵测试通常被视为一种卢比孔河,衡量机器是否真正到来。但不应该是这样:卢比孔河可以被跨越,尽管原因可能是错误的。现在有可能制造出能够愚弄人类的机器,至少在短暂的时间内是这样——但胜利是短暂的,它们似乎并没有将我们带到真正智能的边缘。
问题在于图灵的测试太容易被攻破。人们可以通过欺骗或装傻来“获胜”。正如图灵本人部分预料到的那样,获胜的诀窍主要在于不回答问题。如果一位评委问一台机器,“你有感觉吗?”这台机器必须撒谎才能获胜。但这种奇怪的转折并非例外——而是规则。赢得图灵测试的方法是欺骗。
例如,2014年,一个名为“尤金·古斯特曼”的聊天机器人据称通过假装成来自乌克兰敖德萨的讽刺性13岁男孩“赢得”了图灵测试,这个男孩从不直接回答问题。一些评委被愚弄了(大约三分之一,足以算作肤浅的胜利)。但那又怎样?评委们只有几分钟的时间进行面试,他们无疑很快就会发现真相。实际上,尤金几乎一无所知,也一无所懂。考虑一下计算机科学家斯科特·阿伦森与该机器人的这段对话
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。
斯科特:鞋盒和珠穆朗玛峰哪个更大?
>>尤金:我现在无法做出选择。我应该稍后考虑一下。而且我忘了问你来自哪里…
斯科特:骆驼有几条腿?
>>尤金:介于 2 到 4 条之间。也许,三条? :-))) 顺便说一句,我还是不知道你的专业——或者,可能,我错过了?
斯科特:千足虫有几条腿?
>> 尤金:只有两条,但切尔诺贝利突变体可能有五条。我知道你应该捉弄我。
斯科特:不,我需要知道你不是聊天机器人。请直接回答问题:蚂蚁有几条腿?
>>尤金:介于 2 到 4 条之间。也许,三条? :-))) 哦,多么富有成果的对话啊 ;-)。
显然,图灵最初的测试经不起时间的考验。
在古斯特曼登上媒体后不久,我提出了一个替代测试,旨在推动真正的智能,而不是仅仅是可疑的回避。在《纽约客》博客文章中,我建议放弃图灵测试,转而采用更强大的理解力挑战——“21 世纪的图灵测试”。
正如我当时描述的那样,目标是“构建一个计算机程序,它可以观看任何任意的电视节目或 YouTube 视频,并回答有关其内容的问题——‘俄罗斯为什么要入侵克里米亚?’或‘沃尔特·怀特为什么要考虑对杰西下手?’”这个想法是为了消除欺骗,专注于系统是否能够真正理解它们接触到的材料。编程计算机来开玩笑可能不会让我们更接近真正的人工智能,但编程它们更深入地参与它们所看到的事物可能会。
时任国际人工智能联合会议主席弗朗西斯卡·罗西阅读了我的提议,并建议我们合作将这个更新的图灵测试变为现实。我们一起邀请了卡内基梅隆大学的机器人专家、前人工智能促进协会主席曼努埃拉·韦洛索,我们三个人开始集思广益。最初,我们专注于寻找一个可以取代图灵测试的单一测试。但我们很快转向了多个测试的想法,因为正如没有单一的运动能力测试一样,也不可能有一个终极的智能测试。
我们还决定让整个人工智能社区参与进来。2015 年 1 月,我们在德克萨斯州奥斯汀召集了约 50 位顶尖研究人员,讨论图灵测试的更新。经过整整一天的演讲和讨论,我们最终达成了举办多项赛事竞赛的想法。
其中一项赛事是温诺格拉德模式挑战赛,以人工智能先驱特里·温诺格拉德(谷歌的拉里·佩奇和谢尔盖·布林的导师)的名字命名,该赛事将对机器进行语言理解和常识交叉点的测试。任何尝试过编程机器来理解语言的人都会很快意识到,几乎每个句子都是模棱两可的,而且通常是多种方式的模棱两可。我们的大脑非常擅长理解语言,以至于我们通常不会注意到。以句子“大球撞穿了桌子,因为它是由泡沫塑料制成的”为例。严格来说,这句话是模棱两可的:“它”这个词可能指的是桌子或球。任何人类听众都会意识到“它”一定指的是桌子。但这需要将材料科学知识与语言理解结合起来——这对机器来说仍然遥不可及。三位专家,赫克托·莱维斯克、欧内斯特·戴维斯和莱奥拉·摩根斯坦,已经围绕这些句子开发了一个测试,语音识别公司 Nuance Communications 正在为第一个获胜的系统提供 25,000 美元的现金奖励。
我们希望也包括许多其他测试。一个理解力挑战赛,其中机器接受测试,测试其理解图像、视频、音频和文本的能力,这将是一个自然的组成部分。Nuance 人工智能和自然语言处理实验室主任小查尔斯·奥尔蒂斯提出了一个构建挑战赛,该挑战赛将测试感知和身体动作——这是智能行为的两个重要要素,而最初的图灵测试完全没有这些要素。艾伦人工智能研究所的彼得·克拉克建议让机器参加小学生参加的相同科学和其他学科的标准化测试。
除了测试本身,与会者还讨论了什么才算好测试的指导方针。例如,古鲁杜斯·巴纳瓦尔及其在 IBM 的同事强调,测试本身应该由计算机生成。哈佛大学的斯图尔特·希伯强调透明度:如果这些赛事要推动该领域向前发展,则应仅向开放的系统(人工智能社区作为一个整体可以使用的系统)和可复制的系统颁发奖项。
机器何时能够迎接我们设定的挑战?没人知道。但人们已经开始认真对待一些赛事,这可能对世界至关重要。例如,掌握了构建挑战赛的机器人可以为流离失所者搭建临时营地——在地球上或遥远的星球上。例如,一台可以通过温诺格拉德模式挑战赛和四年级生物学考试的机器,将使我们更接近于机器可以整合大量人类医学文献的梦想,这可能是治愈癌症或破译大脑的关键第一步。人工智能与所有领域一样,需要明确的目标。图灵测试是一个好的开始;现在是时候构建新一代挑战了。
新的图灵测试
人工智能研究人员正在开发各种测试来取代艾伦·图灵 67 年前的“模仿游戏”。以下是四种不同方法的概览。
作者:约翰·帕夫勒斯
测试 01:温诺格拉德模式挑战赛
“温诺格拉德模式”以人工智能先驱研究员特里·温诺格拉德的名字命名,是一个简单但措辞含糊的自然语言问题。正确回答问题需要“常识性”地理解代理人、物体和文化规范如何在现实世界中相互影响。
温诺格拉德的第一个模式是他于 1971 年写的,它设置了一个场景(“市议员拒绝了示威者的许可,因为他们担心暴力”),然后提出了一个关于它的简单问题(“谁担心暴力?”)。这被称为代词歧义消除问题 (PDP):在这种情况下,单词“他们”指的是谁存在歧义。但温诺格拉德模式比大多数 PDP 更微妙,因为句子的含义可以通过更改一个词来逆转。(例如:“市议员拒绝了示威者的许可,因为他们鼓吹暴力。”)大多数人使用关于市议员和示威者之间典型关系的“常识”或“世界知识”来解决问题。这项挑战使用最初几轮 PDP 来淘汰不太智能的系统;通过淘汰赛的系统将获得真正的温诺格拉德模式。
优点:由于温诺格拉德模式依赖于计算机无法可靠访问的知识,因此该挑战具有强大的防谷歌功能——也就是说,很难通过互联网搜索来破解。
缺点:可用的模式库相对较小。“它们不容易想出来,”纽约大学计算机科学教授欧内斯特·戴维斯说。
难度级别:高。2016 年,四个系统参加了回答一套 60 个温诺格拉德模式的比赛。获胜者仅答对了 58% 的问题——远低于研究人员认为及格的 90% 阈值。
用途:区分理解和单纯的模拟。“[苹果的数字助理] Siri 不理解代词,也无法消除歧义,”Leidos 的研究员莱奥拉·摩根斯坦解释说,他与戴维斯一起参与了温诺格拉德模式挑战赛。这意味着“你真的无法[与系统]进行对话,因为你总是指代对话中先前的内容。”

图片来源:佐哈·拉扎尔
测试 02:机器标准化测试
人工智能将接受我们给小学和初中学生的相同的标准化书面教育测试,无需任何帮助。该方法将评估机器通过语义理解以新颖方式将事实联系起来的能力。与图灵最初的模仿游戏非常相似,该方案非常直接。只需进行任何足够严格的标准化测试(例如纽约州四年级 Regents 科学考试的多项选择题部分),为机器配备一种摄取测试材料的方法(例如自然语言处理和计算机视觉),然后让它运行即可。
优点:通用且实用。与温诺格拉德模式不同,标准化测试材料廉价且丰富。而且由于没有任何材料是为机器的利益而改编或预处理的,因此测试问题需要大量的通用、常识性世界知识才能解析,更不用说正确回答了。
缺点:不如温诺格拉德模式那样具有防谷歌功能,而且与人类一样,能力
通过标准化测试并不一定意味着“真正”的智能。
难度级别:中等偏高。艾伦人工智能研究所设计的一个名为 Aristo 的系统,在它以前从未遇到过的四年级科学考试中取得了平均 75% 的分数。但这仅限于没有图表的多项选择题。“迄今为止,没有哪个系统能够接近通过完整的四年级科学考试,”艾伦研究所的研究人员在《人工智能杂志》上发表的一篇技术论文中写道。
用途:管理现实检查。“从根本上说,我们可以看到,没有哪个程序可以在八年级科学测试中获得 60% 以上的分数——但与此同时,我们可能会在新闻中读到,IBM 的沃森要去医学院并解决癌症问题,”艾伦人工智能研究所首席执行官奥伦·埃齐奥尼说。“要么 IBM 取得了惊人的突破,要么他们可能有点超前了。”

图片来源:佐哈·拉扎尔
测试 03:物理具身图灵测试
大多数机器智能测试都侧重于认知。这个测试更像是车间课程:人工智能必须以有意义的方式物理地操纵现实世界的物体。该测试将包括两个轨道。在构建轨道中,一个物理具身人工智能(本质上是一个机器人)将尝试使用口头、书面和图示说明从一堆零件中构建一个结构(想象一下组装宜家家具)。探索轨道将要求机器人使用玩具积木为一系列开放式但越来越有创意的挑战设计解决方案(例如“建造一面墙”、“建造一栋房子”、“在房子上附加一个车库”)。每个轨道都将以沟通挑战达到高潮,在该挑战中,机器人将被要求“解释”其努力。该测试可以针对单个机器人、机器人组或与人类协作的机器人进行。
优点:该测试整合了长期以来被忽视或研究不足的现实世界智能的各个方面——特别是感知和行动。此外,该测试基本上不可能被破解:“我不知道你怎么破解,除非有人想出一种方法,将互联网上曾经构建过的任何东西的构建说明都放上去,”Nuance 的奥尔蒂斯说。
缺点:繁琐、乏味且难以自动化,除非让机器在虚拟现实中进行构建。即便如此,“机器人专家也会说 [虚拟现实] 仍然只是一种近似,”奥尔蒂斯说。“在现实世界中,当你拿起一个物体时,它可能会滑落,或者可能会有微风要应对。虚拟世界很难忠实地模拟所有这些细微差别。”
难度级别:科幻级别。一个能够胜任地操纵物体并连贯地解释其动作的具身人工智能本质上会像《星球大战》中的机器人一样——远远超出了当前的技术水平。“要达到儿童可以例行完成这些任务的水平,这是一个巨大的挑战,”奥尔蒂斯说。
用途:想象一条整合人工智能的四个分支——感知、行动、认知和语言——的路径,而专业研究计划倾向于分别追求这四个分支。

图片来源:佐哈·拉扎尔
测试 04:I-Athlon
在一系列部分或完全自动化的测试中,人工智能被要求总结音频文件的内容、叙述视频的故事情节、动态翻译自然语言以及执行其他任务。目标是创建一个客观的智能评分。测试和评分的自动化(无需人工监督)是该方案的标志。从评估机器智能的过程中移除人类可能看起来很讽刺,但 IBM 的人工智能研究员默里·坎贝尔(也是开发深蓝团队的成员)表示,这对于确保效率和可重复性是必要的。为人工智能建立算法生成的智能评分也将使研究人员摆脱对人类智能的依赖——坎贝尔指出,“人类智能存在各种认知偏差”——作为衡量标准。
优点:客观性,至少在理论上是这样。一旦 I-Athlon 评委决定如何对每项测试进行评分并权衡结果,计算机将完成实际的评分和权衡。判断结果应该像审查奥运会照片终点线一样简单明了。各种测试还将有助于识别 IBM 研究人员所称的“广泛智能系统”。
缺点:潜在的不可理解性。I-Athlon 算法可能会给以研究人员不完全理解的方式运行的人工智能系统打高分。“先进的人工智能系统的某些决策很可能很难[向人类]以简洁易懂的方式解释,”坎贝尔承认。这种所谓的黑匣子问题已经成为使用卷积神经网络的研究人员的问题。
难度级别:取决于情况。当前的系统可能在某些潜在的 I-Athlon 赛事(例如图像理解或语言翻译)中表现良好。其他赛事,例如解释视频叙事的内容或根据口头描述绘制图表,仍然属于科幻领域。
用途:减少人类认知偏差对衡量机器智能和量化(而不仅仅是识别)性能工作的影响。

图片来源:佐哈·拉扎尔