新的研究表明,图灵测试,这项旨在确定某物是计算机还是人的典型评估方法,可能存在致命缺陷。
新的研究表明,如果被询问者选择保持沉默,则该测试目前无法确定与人对话的是另一个人还是机器人。
英格兰考文垂大学的计算机科学家、研究合著者凯文·沃里克表示,虽然图灵测试存在缺陷已不是新闻,但这项新研究突显了该测试在回答关于人工智能的更深层次问题方面的局限性。[超级智能机器:7个机器人未来]
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您将帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
沃里克告诉Live Science:“随着机器变得越来越智能,它们是否真的在思考,以及我们是否需要赋予它们责任,这些都开始成为非常严肃的问题。显然,图灵测试无法解决这些问题。”
模仿游戏
著名的图灵测试最早由英国计算机科学家艾伦·图灵于1950年提出,旨在解决何时以及如何确定机器是否具有感知能力的问题。他认为,机器是否会思考这个问题是错误的:如果它们能在他称之为模仿游戏中冒充人类,那就足够了。
测试很简单:将机器放在一个房间里,将人类审讯者放在另一个房间里,让他们通过基于文本的对话进行交流。如果审讯者能识别出机器是非人类的,则该设备失败;否则,它就通过了。
这项简单直观的测试在人工智能哲学中产生了巨大的影响。但从一开始,研究人员就发现了该测试的缺陷。首先,该游戏侧重于欺骗,并且过度关注对话作为衡量智能的标准。
例如,在 20 世纪 70 年代,一个名为 ELIZA 的早期语言处理程序通过模仿精神科医生将问题反射回提问者的技巧,让图灵测试的评委们大吃一惊。而在 2014 年,研究人员使用一个名为 “尤金·古斯特曼”的“聊天机器人” 欺骗了人类审讯者,该聊天机器人被设计成冒充一名 13 岁的乌克兰男孩。
保持沉默的权利
沃里克在组织图灵逝世 60 周年纪念图灵测试时,他和他的同事、同样是考文垂大学计算机科学家的胡玛·沙阿注意到了一些奇怪的事情:有时,一些人工智能聊天机器人会崩溃并保持沉默,这让审讯者感到困惑。
沃里克告诉Live Science:“当它们这样做时,在任何情况下,评委都无法说它是机器。”[有史以来最奇怪的 6 个机器人]
沃里克说,按照测试规则,如果评委无法明确识别出机器,那么机器就通过了测试。按照这个标准,一个沉默的机器人甚至一块石头都可以通过图灵测试。
沃里克说,另一方面,许多人被不公平地贴上人工智能的标签。
沃里克说:“通常,人类确实会被归类为机器,因为有些人会说傻话。”他补充说,在那种情况下,如果机器竞争者只是保持沉默,它将默认获胜。
更好的测试
加拿大多伦多大学名誉计算机科学教授赫克托·莱韦斯克表示,研究结果表明,需要一种替代图灵测试的方法,他没有参与这项新研究。
莱韦斯克告诉Live Science:“大多数人都认识到,实际上,这是一个测试你是否可以愚弄审讯者的测试。令人惊讶的是,有很多种愚弄审讯者的方法与人工智能或智能无关。”
莱韦斯克开发了一种替代测试,他称之为 Winograd 模式(以计算机科学研究员特里·威诺格拉德的名字命名,他首先提出了一些测试中涉及的问题)。
Winograd 模式向人工智能提出一系列有明确正确答案的问题。例如,它可能会问:“奖杯放不进棕色手提箱,因为它太大了(小了)。什么东西太大了(小了)?”
这些问题与图灵设想的人工智能与人类之间进行的关于莎士比亚十四行诗的丰富讨论相去甚远。
莱韦斯克说:“它们很普通,当然远不如与某人进行真正的对话那样引人注目。”
然而,正确回答需要理解语言、空间推理和语境,才能弄清楚奖杯可以放进手提箱。
还有其他提出的 图灵测试的替代方案 侧重于人类智能的不同方面,例如创造力。
衡量创造力的洛夫莱斯测试 要求机器人创作一件特定类型的艺术作品,该作品符合人类评委给出的约束条件。但即使在这个领域,机器人也在赶上凡人:今年早些时候,研究人员使用人工智能和机器人画家创作了一幅荷兰大师风格的“新伦勃朗”画作。
版权所有 2016 年 LiveScience,Purch 公司。保留所有权利。未经许可,不得出版、广播、改写或重新发布。