意识测试

我们如何知道何时制造出了有感知能力的计算机?通过让它解决一个简单的谜题

计算机越来越接近于像有智慧的人类一样行事——IBM的沃森能够击败电视问答节目《Jeopardy》的所有冠军就是证明。然而,到目前为止,大多数人都会怀疑计算机是否真的“看到”了摄像头前充满形状和颜色的视觉场景,它们是否真的通过麦克风“听到”了一个问题,它们是否像人类一样感受到任何东西——体验意识——尽管计算机具有超人般的速度来处理数据。

我们如何知道一台机器是否具有了这种看似难以言喻的意识品质?我们的策略依赖于这样一个认知:只有有意识的机器才能证明对普通照片中描绘的场景是否“正确”或“错误”具有主观理解。这种将一组事实组装成一幅有意义的现实图景的能力——或者说,知道大象不应该栖息在埃菲尔铁塔顶上——定义了有意识头脑的一个基本属性。相比之下,即使是摆满IBM超级计算机的房间,仍然无法理解场景中的合理之处。

理解有感知能力的机器的属性,不仅能让人类理解我们自己大脑的运作方式,还能为科幻小说中设想的那一天做好准备:届时,我们必须学会与我们自己创造的另一种形式的有意识的生命共存。这种理解甚至可能使我们能够解决困扰哲学家们千百年来最深刻的问题之一:什么是意识?


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


是人还是魔像?
长期以来,哲学家们一直在思考人造模拟物,无论是神话中的魔像还是盒子里的机器,是否能感知或体验到任何东西。然后在1950年,英国数学家艾伦·图灵发表了一篇论文,启动了人工智能领域。图灵曾帮助破译二战期间令人生畏的纳粹潜艇部队使用的恩尼格玛密码。在《Mind》杂志的一篇文章中,图灵提出用一个更实际的问题来取代“机器会思考吗?”这个不可能模糊的问题——我们能否制造出通过电传打字机查询时,无法与人类区分开来的机器?

今天使用的图灵测试版本,让一位人类评判员通过电脑屏幕与人类或“自然语言”的软件程序互动,我们用自然语言进行交流。评判员与其伙伴之间的对话可以涉及任何话题。如果在一段时间后,评判员不能确定伙伴是否是人类,至少可以说它和人一样聪明,通过了图灵测试。多年来,聊天机器人——旨在模拟智能闲聊的对话程序——偶尔会欺骗评判员,但时间不长。

我们两人对机器意识问题的研究并非以计算机科学家的身份,而是以对大脑如何产生主观体验感兴趣的神经生物学家的身份。我们使用磁共振扫描仪探测志愿者或神经系统疾病患者的大脑,或使用脑电图记录他们的大脑波。我们还对啮齿动物和其他动物的大脑进行类似的调查。在这样做的过程中,我们和我们的许多同事正在逼近所谓的意识的神经关联:共同足以引起任何特定的意识感觉(例如观察到俗丽的橙色日落)的最小大脑机制。然而,该领域直到最近还缺乏一个通用理论,使我们能够以原则性的方式评估,一个脑损伤患者、一个胎儿、一只老鼠或一个硅模拟物是否能体验到意识感觉。

我们称之为意识的整合信息理论提供了一种应对这一挑战的方法。它触及了意识的一个关键决定因素。许多人都有一个直观的理解,即构成日常体验的主观、现象状态——我们每个人以高度个体化的方式体验气味、视觉场景、思想或回忆的方式——必然与大脑如何将传入的感觉信号与来自记忆的信息整合到世界的连贯图景中有关。但是,如何使这种直觉更加精确呢?

整合信息理论通过提出两条公理来满足这种需求。首先,意识是高度信息化的。这是因为每个特定的意识状态,当它发生时,排除了大量的其他可能状态,它以自己特定的方式与这些状态不同。想想你曾经看过的所有电影中的所有帧。每一帧,每一个视图,都是一个特定的意识感知:当你感知到那一帧时,你的大脑排除了数万亿张其他可能的图像。即使在黑暗的房间里醒来,看似最简单的视觉体验,即漆黑一片的感知也意味着你看不到灯火通明的客厅、茂密的丛林树冠或任何其他可能呈现在脑海中的无数场景。

其次,有意识的信息是整合的。当你意识到朋友的脸时,你不可能没有注意到她在哭,并且戴着眼镜。无论你多么努力,你都无法将视野的左半部分与右半部分分开,或切换到黑白视觉。无论什么场景进入意识,都保持完整和完整;它不能被细分为可以单独体验的独立且无关的组件。

意识的统一性源于大脑相关部分之间的众多互动。如果大脑区域变得断开连接,就像麻醉或深度睡眠中发生的那样——意识就会减弱,甚至可能消失。

因此,要具有意识,你需要成为一个单一的、整合的实体,具有大量的可区分状态——信息的定义。一个系统整合信息的能力,以及意识的能力,可以通过询问一个系统包含的信息量是否超过其各个部分所拥有的信息量来衡量。这个量,称为Φ,或phi(发音为“fi”),原则上可以为任何系统计算,无论是大脑、机器人还是手动可调恒温器。将Φ视为一个系统对其各个部分的单纯集合的不可约性,以比特为单位衡量。为了使Φ和意识水平高,一个系统必须由专门化且良好整合的部分组成——这些部分共同完成的工作比它们单独完成的工作更多。

如果一个系统的元素在很大程度上是独立的,比如数码相机中的传感器或计算机内存中的比特,Φ就会很低。如果元素都做同样的事情,因为它它们不是专门化的,因此是冗余的,Φ也会很低;如果一个系统的元素随机互连,Φ也会保持在低水平。但是对于大脑的某些部分,例如大脑皮层——那里的神经元富含特定的连接——Φ会很高。这种系统整合的度量也可以应用于金属盒中的硅电路。随着晶体管和存储元件之间足够复杂的连接,计算机,就像大脑一样,将达到高水平的整合信息。

除了测量机器线路中的Φ(这是一项艰巨的任务)之外,我们如何知道一台机器是否有感知能力?什么是实用的测试?探测信息整合的一种方法是,要求它执行一项任何六岁儿童都能轻松完成的任务:“这张照片有什么问题?”解决这个简单的问题需要大量的背景知识,远远超过高级计算机用来识别面孔或检测信用卡欺诈的算法所能提供的知识。

物体或自然场景的图片由像素和物体之间大量复杂的关系组成——因此有句谚语“一图胜千言”。我们视觉系统的进化、儿童时期的神经发育以及一生的经验使我们能够立即知道所有组件是否正确地组合在一起:纹理、深度、颜色、各部分之间的空间关系等等,是否合理?

计算机分析图像——以查看其中的信息是否不连贯——需要比对计算机数据库进行语言查询更多的处理。计算机可能在复杂的游戏中击败了人类,但它们仍然缺乏回答关于照片中正在发生的事情的任意问题的能力。信息整合的程度解释了原因。虽然现代计算机的硬盘超过了我们一生记忆的容量,但这些信息仍然是未整合的:系统的每个元素在很大程度上与其他元素保持断开连接。

透明的牛
以你iPhoto图库中你书桌的照片为例。你的电脑不知道在你书桌上通常的杂物中,左边的iMac和右边的iPad是否合理地放在一起。更糟糕的是,计算机不知道,虽然iMac和iPad可以很好地放在一起,但用盆栽植物代替键盘简直是怪异的;或者iPad不可能漂浮在桌子上方;或者照片的右侧与左侧非常吻合,而许多其他照片的右侧会是错误的。对于你的计算机来说,所有像素都只是一张巨大的、不连贯的三色数字(对应于三种颜色)挂毯,没有任何特定的意义。对你来说,图像是有意义的,因为它充满了各部分之间的连接,在从像素到物体再到场景的许多层次上。这些关系不仅指定了图像的哪些部分可以很好地组合在一起,而且还指定了哪些部分不能。根据我们的理论,这种相关的知识整合网络赋予每张图像一个身份,使其与无数其他图像区分开来,并赋予你感知世界的能力。

同样的整合也会告诉即使是六岁的孩子,许多不协调的图片是荒谬的:客厅地毯上的滑冰运动员、透明的牛或猫追狗。而这就是确定计算机是否具有意识的秘密所在。这些对我们期望的明显违反证明了我们对某些事件和物体如何同时发生的非凡知识,但绝大多数事件和物体并非如此。

测试计算机对图像的理解不需要传统的图灵测试协议,即向机器输入查询。相反,你可以简单地从网上随机挑选一些图像。将每张图像的中间三分之一垂直方向涂黑,然后将图片剩余的左右两侧打乱。复合图像的各部分将不匹配,除非在一种情况下,左侧显然与右侧来自同一张图片。计算机将面临选择哪一张图片是正确的挑战。中间的黑色条带阻止了计算机今天使用的简单图像分析策略——例如,跨分离的部分图像匹配纹理或颜色线条。分割图像测试需要高水平的视觉理解和推断图像碎片如何组合在一起的能力。

另一个测试是在几张图像中插入物体,使这些物体在每张图像中都合理,但在一张图像中除外,计算机必须检测出与众不同的一张。工作台上的锤子属于那里,但工具永远不会悬浮在空中。放在iMac前面的键盘是正确的选择,而不是盆栽植物。

各种依赖于匹配图像特征(如颜色、边缘或纹理)的低级统计数据的计算机策略可能会设法击败其中一项测试,但呈现许多不同的图像测试将击败今天的机器。实际上有用的测试的具体细节还需要更多的工作。然而,这项练习突出了你意识地感知到的巨大整合知识,并鲜明地突出了当前机器视觉系统所拥有的非常狭窄和高度专业化的知识。是的,今天的机器可以从百万张面孔的数据库中挑选出可能的恐怖分子的面孔,但它们不知道他的年龄、性别或种族,不知道他是否正视着观看者,也不知道他是在皱眉还是在微笑。它们也不知道,如果他正在与乔治·华盛顿握手,这张照片很可能是经过数字处理的。任何有意识的人类都可以在一瞥之间理解所有这些以及更多的事情。

了解这一切,我们对不久的将来有什么期望?在某种程度上,一项特定的任务可以从其他任务中分离出来并单独描述,它就可以被机器接管。快速算法可以快速搜索庞大的数据库,并在国际象棋和《Jeopardy》中击败人类。复杂的机器学习算法可以通过让计算机接触大量由人类标记的相关示例,来训练计算机识别面孔或检测行人,速度和效果都比我们更好。我们可以很容易地设想这样的场景:越来越多的专门任务将被委托给机器。先进的计算机视觉系统正在走向成熟,在不到十年的时间里,强大且在很大程度上自主的驾驶模式将成为一种选择。

然而,我们预测,这样的机器视觉系统不会回答关于汽车前方场景的简单问题:从逼近的高速公路上远眺,芝加哥的天际线是否像从薄雾中浮现出来的烧焦的树林?它不会意识到,加油站旁边的一根巨大的香蕉会显得格格不入(除非可能在洛杉矶)。回答这些问题——以及数百万个其他问题——或发现香蕉有什么问题,将需要无数个专用的软件模块,没有人能够预料到那个特定问题而构建这些模块。如果我们是对的,尽管基于一组专门的并行模块的先进机器视觉系统将在很大程度上使驾驶自动化——并将类似地简化许多其他日常任务——但这些系统不会有意识地看到前方的场景。

然而,也可以设想另一种机器——一种将关于我们世界中事物之间无数关系的知识体现在一个单一的、高度整合的系统中的机器。在这样的机器中,“这张照片有什么问题?”这个问题的答案会突然出现,因为任何不协调的东西都将无法匹配给定系统内信息整合方式所施加的一些内在约束。

这样的机器将擅长处理不易分离成独立任务的事情。基于其整合信息的能力,它将有意识地感知一个场景。我们怀疑,为了实现高水平的整合,这样的机器很可能会利用哺乳动物大脑中的结构原理。这些机器将轻松通过我们描述的测试,当它们通过时,它们将与我们分享意识的天赋——宇宙中最神秘的特征。

© . All rights reserved.