人工智能软件自学电子游戏

人工智能正在走向成熟,并挑战我们关于聪明和有意识是密切相关的信念

纵观人类历史,智力和意识一直是两个紧密相关的概念。如果你拥有大量的智力,人们会以某种模糊的方式认为你比街上那个迟钝的家伙更有意识。一个聪明的女孩也会是一个非常有意识的人,她可以详细地告诉你她的经历(因为这就是意识,体验某事物的能力,无论是牙痛、看到金丝雀黄色的房子还是怒火中烧)。但这种密切的关系可能正在瓦解。

考虑一下DeepMind的最新进展,这是一家位于伦敦的小公司,由英国国际象棋神童、视频游戏设计师和计算神经科学家德米斯·哈萨比斯于2011年共同创立。DeepMind去年被谷歌以数亿美元收购。它的新代码所做的事情令人叹为观止:它自学玩电子游戏,而且通常比人类玩家玩得更好。这项技术突破在一项研究中进行了描述,该研究发表在2月份的《自然》杂志上。(《大众科学·思想》是自然出版集团的一部分。)

要了解这种激动人心的感觉,请上网搜索YouTube视频,名为“DeepMind人工智能 @ FDOT14”。这是一个短小的片段,用智能手机拍摄,来自哈萨比斯在2014年技术会议上的演讲,其中展示了一种计算机算法,该算法学习玩经典街机游戏《打砖块》。这款游戏是《乒乓球》的变体,目的是让玩家使用一个在顶部和侧壁弹跳的球来打破排列在屏幕顶部的砖块。如果球碰到屏幕底部,玩家将失去三条生命中的一条。为了防止这种情况发生,玩家移动底部的球拍以向上反弹球。


支持科学新闻事业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和思想的具有影响力的故事的未来。


这款游戏由苹果公司的史蒂夫·沃兹尼亚克共同创作,以今天的标准来看是原始的,但仍然引人入胜。哈萨比斯在舞台上介绍算法时解释了这一点。它开始时一无所知,随机地笨拙地摆弄球拍,没有太多协调性,只是偶尔击中球。经过一小时的训练,一遍又一遍地玩,它的表现有所提高,经常返回球并打破砖块。经过两个小时的训练,它变得比大多数人类都更好,快速地以陡峭的角度返回球。

程序员让算法继续自行运行,并且它不断改进。经过四个小时的游戏,该算法发现了一种创新的《打砖块》策略,使其性能远远超过任何人类。该算法通过学习在侧壁上挖一个隧道来完成这一壮举,使球能够从后面快速摧毁大量砖块。非常聪明。这项成就令人印象深刻,以至于聚集的专家们爆发了自发的掌声(这在科学会议上很少发生)。

为了理解正在发生什么以及为什么这是一件大事,让我们看看幕后。该算法结合了三个特征,所有这些特征都来自神经生物学:强化学习、深度卷积网络和选择性记忆回放。

行为主义是20世纪上半叶主导人类和动物行为研究的领域,其持久的遗产是这样一种观念,即生物体通过将特定行为的后果与先前的特定刺激联系起来来学习最佳行为。这种刺激被称为强化行为。

以我的伯恩山犬Ruby为例,当它还是幼犬时,我必须对它进行家务训练。在按规定的间隔给Ruby喝水后,我立即带它到花园里的一个特定地点等待——并等待。在某个时候,它会自发地小便,我会热情地称赞它。如果室内发生意外,我会严厉地对它说话。狗对这种积极和消极的社会信号反应良好。经过一两个月,Ruby了解到,内部刺激——膀胱充满——随后是一种行为——在它的特殊地点小便——预示着奖励并避免了惩罚。

强化学习已被形式化并在神经网络中实现,以教计算机如何玩游戏。IBM的杰拉尔德·特萨罗使用强化学习的一种特殊版本——时间差分学习——来设计一个玩双陆棋的网络。该程序分析棋盘,并检查所有可能的合法走法以及对手对这些走法的回应。所有由此产生的棋盘位置都被输入到程序的核心,即其价值函数中。

程序选择的动作是导致棋盘位置得分最高的动作。在轮到程序后,网络会稍微调整,以便程序预测接下来发生的事情比它在上次移动后预测的要好一点。从零开始,该程序通过反复试验变得越来越好。强化学习面临的挑战在于,任何一个特定动作与其最终的有利或不利结果之间通常存在相当大的延迟。克服这种障碍需要训练、训练和更多的训练——要击败双陆棋方面的人类专家,特萨罗的程序需要与自己对弈20万局。

DeepMind成功的第二个要素被称为深度卷积网络。它基于哺乳动物视觉系统中发现的大脑回路模型,该模型由哈佛大学的托尔斯滕·威塞尔和已故的大卫·H·休伯尔于1950年代后期和1960年代初期提出(他们的工作后来获得了诺贝尔奖)。该模型假设一个处理元件或单元层,该层计算输入的加权和。如果总和足够大,则模型打开单元的输出;否则,它保持关闭状态。

一些理论家认为,视觉系统本质上只不过是这种处理层级的级联——这被称为前馈网络。每一层接收来自前一层的输入,并将输出传递到下一层。第一层是视网膜,它捕获到达的光子雨。它解释了图像亮度的变化,并将这些数据传递到下一个处理阶段。最后一层由一组单元组成,这些单元发出信号,表明诸如您的祖母或詹妮弗·安妮斯顿之类的高级特征是否出现在该图像中。

学习理论家开发了数学上合理的方法来调整这些单元上的权重——一个输入相对于另一个输入应该有多大的影响力——以使这些前馈网络学习执行特定的识别任务。例如,一个网络暴露于来自互联网的数万张图像,每张图像都根据照片是否包含猫进行标记。每次曝光后,所有权重都会略微调整。如果训练时间足够长(再次强调,训练是非常计算机密集的),并且图像在足够深的网络中处理——那些具有许多处理单元层的网络——神经网络会概括化,并且可以准确地识别新照片是否包含猫科动物。该网络已经以监督的方式学会了区分猫的图像与狗、人、汽车等的图像。这种情况与母亲和蹒跚学步的孩子一起翻看图画书,同时向孩子指出所有猫的情况并没有什么不同。深度卷积网络在谷歌、脸书、苹果和其他硅谷公司中风靡一时,这些公司寻求自动标记图像、将语音翻译成文本、检测视频中的行人以及在乳房扫描中查找肿瘤。

监督学习与强化学习不同。在前一种情况下,每个输入图像都与一个标签配对——一个图像包含一只猫;另一个不包含。在强化学习中,游戏中任何动作的得分结果都会随着时间推移而展开——这些动作可能会产生好处(提高分数),但仅在多次移动之后。

哈萨比斯及其庞大的团队(《自然》杂志的论文总共包括19位合著者)使用了一种称为Q学习的强化学习变体,作为深度学习网络的监督者。网络的输入包括彩色游戏屏幕的模糊版本,包括游戏得分——与人类玩家看到的一样——以及与最后三步移动相关的屏幕。网络的输出是对操纵杆的命令——以八个基本方向之一移动,无论是否激活红色“开火”按钮。从权重的随机设置开始,即所谓的空白石板,该算法弄清楚了哪些动作会导致最重要的分数增加——何时球拍最有可能成功拦截底部的球,从而打破向上轨迹上的砖块。通过这种方式,该网络学习并通过重复强化了成功玩《打砖块》的训练方法,其表现比专业人类游戏测试员高出惊人的1327%。

该算法的第三个关键组成部分是选择性记忆回放——类似于被认为发生在海马体中的情况,海马体是与记忆相关的脑区。在海马体中,与特定经历(例如跑迷宫)相关的神经细胞的活动模式会重新出现,但在回放时速度更快。也就是说,该算法会随机回忆起一个特定的游戏片段,包括它自己早先从记忆库中遇到的动作,并将使用这种早期经验重新训练自己,从而适当地更新其评估功能。

DeepMind的人们并不满足于让他们的算法只学习一个游戏。他们在49种不同的Atari 2600游戏上训练了相同的算法,所有这些游戏都是为了吸引几代青少年而设计的。它们包括《视频弹珠台》、《星际枪手》、《机器人坦克》、《公路跑者》、《乒乓球》、《太空入侵者》、《吃豆小姐》、《异形》和《蒙特祖玛的复仇》。在所有情况下都使用了相同的算法,具有相同的设置。只有输出根据每个游戏的具体需求而有所不同。结果让所有竞争的游戏算法都黯然失色。更重要的是,在这些游戏中,该算法的表现优于人类专业游戏测试员水平的75%或更高,有时甚至超出幅度非常大。

该算法确实有其局限性。随着游戏需要越来越长期的规划,其性能逐渐变差。例如,该算法在《吃豆小姐》中的表现非常糟糕,因为该游戏要求人们选择迷宫中的哪条路径,以避免被仍然在未来10步或更远处的幽灵吞噬。

然而,该程序预示着人工智能的新复杂性。IBM的“深蓝”程序在1997年击败了国际象棋特级大师加里·卡斯帕罗夫,而IBM的沃森系统在智力竞赛节目《危险边缘》中击败了肯·詹宁斯和布拉德·鲁特,它们都是精心手工制作的算法的高度专业化集合,专门针对其特定的问题领域。新一代算法的标志是,它们像人一样从自己的胜利和失败中学习。从游戏屏幕上的原始像素开始,它们最终在横向卷轴射击游戏、拳击游戏和赛车游戏中竞争。当然,它们运行的世界在物理上非常简单,遵守限制性规则,并且它们的动作受到严格限制。

这些算法中没有任何意识的迹象。它们不具备我们与意识相关的任何行为。现有的意识理论模型会预测深度卷积网络没有意识。它们是僵尸,在世界上行动,但这样做没有任何感觉,表现出一种有限形式的异类、冷酷的智能:一种算法“无情地利用了它发现的系统中的弱点。这一切都是自动的,”哈萨比斯在他的2014年演讲中说。这种算法,包括那些控制谷歌无人驾驶汽车或在金融市场上执行交易的算法,表明在地球历史上,智能首次可以与感觉、与意识完全分离。

它们是聪明的,因为它们可以学习适应新的世界,其动力仅仅是最大化累积奖励,正如游戏得分所定义的那样。我毫不怀疑DeepMind的设计师们正忙于开发更复杂的学习引擎,教他们的算法主宰第一人称射击游戏,如《毁灭战士》或《光环》,或策略游戏,如《星际争霸》。这些算法将越来越擅长在现代世界中大量存在的狭窄定义领域中执行特定任务。它们既不会创造也不会欣赏艺术,也不会对美丽的日落感到惊奇。

从长远来看,这对人类来说是好事还是坏事还有待观察。我们统治自然世界的原因不是因为我们比其他动物更快或更强壮,更不用说更聪明,而是因为我们更聪明。也许这些学习算法是人类地平线上的乌云。也许它们将是我们最后的发明。

延伸阅读

通过深度强化学习实现人类水平的控制。 弗拉基米尔·姆尼赫等,《自然》,第518卷,第529–533页;2015年2月26日。

克里斯托夫·科赫 是艾伦研究所和Tiny Blue Dot基金会的神经科学家,艾伦脑科学研究所的前任总裁,以及加州理工学院的前教授。他的最新著作是《那时我自己就是世界》。科赫定期为包括《大众科学》在内的各种媒体撰稿。他住在太平洋西北地区。

更多作者:克里斯托夫·科赫
SA Mind Vol 26 Issue 4这篇文章最初以“没有感觉的智能”为标题发表在SA Mind 第26卷第4期(),第26页
doi:10.1038/scientificamericanmind0715-26
© . All rights reserved.