计算机如何击败围棋选手

当顶尖围棋选手败给机器时,人工智能在超越自然智能的道路上迈出了决定性的一步

瑞奇·波普

上帝移动棋手, 棋手反过来移动棋子。 但在上帝之上的 神是谁开始了 尘土、时间和 睡眠和痛苦的轮回?

——豪尔赫·路易斯·博尔赫斯,《象棋》,1960年

计算机程序 AlphaGo 在三月份战胜了世界顶尖围棋选手之一,这标志着蓬勃发展中的机器学习和人工智能领域迄今为止取得的最高成就。 这台计算机在首尔举行的备受瞩目的比赛中以 4 比 1 的悬殊比分击败了李世乭,李世乭是一位非常古老而传统的棋盘游戏围棋的选手。 随着这次失败,计算机在最后一种古典棋盘游戏中胜过了人类,围棋以其深度和简洁性而闻名。 一个时代结束了,一个新的时代开始了。 AlphaGo 及其最近的胜利背后的方法对机器智能的未来具有惊人的意义。

横空出世


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您将有助于确保未来能够继续刊登关于塑造我们当今世界的发现和思想的具有影响力的故事。


AlphaGo 登上围棋世界之巅的历程令人惊叹,并且与机器下国际象棋的轨迹截然不同。 在十多年的时间里,IBM 聘请的一支由硬件和软件工程师组成的专门团队构建并编程了一台名为“深蓝”的专用超级计算机,它只做一件事:通过每秒评估 2 亿个棋盘位置来下国际象棋。 在一个广受期待的进展中,IBM 团队向当时的国际象棋世界冠军加里·卡斯帕罗夫发起了挑战。 在 1996 年进行的一场六局比赛中,卡斯帕罗夫以三胜两平一负的战绩战胜了深蓝,但在一年后的历史性复赛中以 3.5 比 2.5 输给了深蓝。(平局情况下,计分规则允许半分。)

国际象棋是一种经典的策略游戏,类似于井字棋、跳棋、黑白棋(奥赛罗)、双陆棋和围棋,玩家轮流放置或移动棋子。 与玩家只能看到自己的牌和所有弃牌的游戏不同,玩家可以完全访问相关信息,机会不发挥任何作用。

围棋的规则比国际象棋的规则简单得多。 黑白双方各有装有黑白棋子的碗,每方轮流将一枚棋子放在 19x19 的棋盘格上。 棋子一旦放置,就不会移动。 这种起源于 2500 多年前中国的游戏的目的是完全包围对方的棋子。 这种被包围的棋子被认为是俘获的,并从棋盘上移除。 从这种纯粹的简单性中,产生了伟大的美——黑白军队之间从棋盘的角落延伸到中心的复杂战斗。

严格的逻辑游戏,如国际象棋和围棋,可以用可能出现的局面数量来表征——这是一个定义其复杂性的衡量标准。 根据游戏的不同阶段,玩家必须从少量可能的走法中选择一种。 一盘典型的国际象棋游戏可能有 10120 种可能的走法,这是一个巨大的数字,考虑到在整个可观测的星系、恒星、行星、狗、树木、人类宇宙中只有大约 1080 个原子。 但围棋的复杂性要大得多——有 10360 种可能的走法。 这是一个超出想象的数字,使得彻底评估所有可能的走法变得完全不现实。

鉴于这种几乎无限的复杂性,围棋比国际象棋更侧重于识别当成群的棋子包围空白空间时出现的模式。 玩家有意识或无意识地感知棋子组之间的关系,并谈论诸如棋子的“轻”和“重”形状以及aji(意味着潜在可能性)等看似模糊的概念。 然而,与游戏的正式规则相比,这些概念更难通过算法捕捉。 因此,与国际象棋程序相比,计算机围棋程序举步维艰,并且没有一个能在常规锦标赛条件下击败职业人类棋手。 这种事件预计至少在十年后才会发生。

然后,AlphaGo 通过今年 1 月 28 日在世界最受尊敬的科学杂志之一《自然》杂志上发表的一篇文章,突然进入公众视野。 它的软件是由一个 20 人组成的团队开发的,团队负责人是曾经的国际象棋神童、神经科学家,后来成为人工智能先驱的戴密斯·哈萨比斯。 (他位于伦敦的 DeepMind Technologies 公司于 2014 年被谷歌收购。) 最有趣的是,《自然》杂志的文章透露,AlphaGo 在 2015 年 10 月与欧洲围棋冠军樊麾进行了比赛,并以 5 比 0 获胜,且没有让人类棋手让子,这在以前是从未听说过的事情。 值得注意的是,AlphaGo 的算法不包含任何真正新颖的见解或突破。 该软件结合了良好的老式神经网络算法和机器学习技术,以及在功能强大但相当标准的硬件上运行的出色软件工程——48 个中央处理器 (CPU),辅以八个图形处理器 (GPU),这些 GPU 是为游戏社区渲染 3D 图形而开发的,并且功能非常强大,可以运行某些数学运算。

围棋游戏中可能走法的数量庞大,这要求 AlphaGo 的设计者为该软件配备两个独立的网络。 使用类似人类的评估过程,策略网络()减少了需要考虑的走法数量; 价值网络()预测任何一个棋盘位置导致获胜的概率。 来自戴维·西尔弗等人撰写的《自然》杂志第 529 卷中发表的“通过深度神经网络和树搜索掌握围棋游戏”一文;2016 年 1 月 28 日

计算的核心是神经网络,它是生物大脑中神经元回路的远亲后代。 多层人工神经元处理输入——19x19 围棋棋盘上的棋子位置——并使用称为卷积网络的东西来得出游戏中各个方面越来越抽象的表示。 相同的技术使得最近在自动图像识别方面取得突破性进展成为可能——例如,标记发布到 Facebook 的所有图像。

对于任何特定的棋盘位置,两个神经网络协同运行以优化性能。 “策略网络”通过限制特定棋盘位置的走法数量来缩小游戏范围。 它通过学习为该位置选择一小部分好的走法来实现这一点。 然后,“价值网络”估计给定的棋盘位置有多大可能导致获胜,而无需追溯搜索树的每个节点。 策略网络生成可能的走法,然后价值网络判断这些走法击败对手的可能性。 这些走法使用一种称为蒙特卡罗树搜索的技术进行处理,即使仅探索完整博弈树的一小部分,蒙特卡罗树搜索也可以实现最佳行为。

仅靠蒙特卡罗树搜索不足以让这些程序在世界一流水平上竞争。 这需要赋予 AlphaGo 学习能力,最初是通过让它接触以前职业围棋选手玩过的游戏,随后让程序能够与自己对弈数百万局游戏,从而不断提高其性能。

在第一阶段,一个 13 层的策略神经网络从一张白纸开始——之前没有接触过围棋。 然后,它在从围棋数据库中提取的 160,000 场真实游戏中的 3000 万个棋盘位置上进行了训练。 这个数字代表的游戏数量远远超过任何职业棋手一生中会遇到的游戏数量。 每个棋盘位置都与棋手选择的实际走法配对(这就是为什么这种技术被称为监督学习),并且使用所谓的深度机器学习技术调整网络中模拟神经元之间的连接,以使网络在下一次更有可能选择更好的走法。 然后,通过给网络一个它以前从未见过的游戏中的棋盘位置来测试该网络。 它准确但远非完美地预测了职业棋手选择的走法。

在第二阶段,策略网络使用强化学习进行了自我训练。 这种技术是行为主义(20 世纪上半叶在心理学和生物学中占主导地位的一种思想流派)的持久遗产。 它宣称这样一种观点,即生物体——从蠕虫、苍蝇和海蛞蝓到老鼠和人——通过将特定行为与之前的特定刺激联系起来来学习。 当它们一遍又一遍地这样做时,生物体就会在刺激和反应之间建立联系。 这可以通过死记硬背来无意识地完成。

强化学习多年前已在神经网络中实施,以模拟动物行为和训练机器人。 DeepMind 去年以惊人的方式展示了这一点,当时网络被教会如何玩 49 种不同的 Atari 2600 视频游戏,包括视频弹珠台、星际枪手、机器人坦克、公路赛跑者、乒乓球、太空侵略者、吃豆女士、异形和蒙特祖玛的复仇。 (这是一个预兆:atari 是一个日语围棋术语,表示即将捕获一个或多个棋子。)

每次玩游戏时,DeepMind 网络都会“看到”与任何人类玩家看到的相同的视频游戏屏幕,包括当前分数。 网络的输出是指示操纵杆在屏幕上移动光标的命令。 该算法遵循程序员最大化游戏分数的指令,并这样做,并在成千上万次的试验中弄清楚了游戏规则。 它学会了移动、击中外星飞船并避免被它们摧毁。 对于某些游戏,它取得了超人的表现。 AlphaGo 也部署了相同的强大强化学习算法,从监督学习步骤之后策略网络的配置开始。

在第三个也是最后一个训练阶段,使用策略网络选择的 3000 万个自我生成的位置来训练价值网络,该网络估计给定棋盘位置导致获胜的可能性。 这种自我对弈的特性是人类无法复制的(因为它需要玩家的思想分裂成两个独立的“思想”),这使得该算法能够持续不断地改进。

AlphaGo 的一个特点是,它会选择一种最大化获胜概率的策略,而不管赢多少。 例如,AlphaGo 宁愿以 90% 的概率赢两个子,也不愿以 85% 的概率赢 50 个子。 很少有棋手会放弃稍微冒险的机会来彻底击败对手,而选择险胜但更确定的胜利。

最终结果是一个程序,它的性能优于任何竞争对手,并击败了围棋大师樊麾。 然而,樊麾并未跻身世界前 300 名棋手之列,而在顶尖棋手中,能力差异非常明显,即使一生的训练也无法让樊麾击败像李世乭这样的人。 因此,根据 AlphaGo 和樊麾之间公开的五场比赛,李世乭自信地预测他将统治 AlphaGo,以五比零获胜,或者,也许在糟糕的一天,以四比一获胜。 他没有想到的是,他在首尔面对的程序是樊麾六个月前遇到的程序的改进版本,并通过无情的自我对弈进行了优化。

接下来是什么?

深蓝击败卡斯帕罗夫代表着机器蛮力战胜了人类大脑。 它的成功是基于为此目的而构建的非常快速的处理器。 虽然它战胜卡斯帕罗夫是史无前例的,但这场胜利并未带来任何实际应用或衍生产品。 事实上,IBM 很快就退役了这台机器。

AlphaGo 的情况不太可能相同。 该程序在现成的处理器上运行。 让它访问更多的计算能力(通过将其分布在由 1,200 个 CPU 和 GPU 组成的网络上)只会略微提高其性能。 使其与众不同的特性是 AlphaGo 将自己分成两个,与自己对弈并不断提高其整体性能的能力。 目前尚不清楚 AlphaGo 的改进程度是否有任何限制。 (但愿我们老式的大脑也能这样。) 这可能构成了任何智能系统的核心,这是研究人员正在追求的圣杯——通用人工智能,其力量和灵活性可以与人类智能相媲美。

图片由麻省理工学院博物馆(明斯基)提供;图片由 SRI International(沙奇)提供;盖蒂图片社(卡斯帕罗夫李世乭

最有可能的是,哈萨比斯的 DeepMind 团队将考虑设计更强大的程序,例如可以从头开始自学围棋的版本,而无需依赖人类游戏语料库作为示例的版本,可以学习国际象棋的版本,可以同时在世界一流水平下跳棋、国际象棋和围棋的程序,或者可以处理无限注德州扑克或类似的碰运气游戏的程序。

哈萨比斯和他的同事们非常值得称赞地在他们的《自然》杂志文章中详尽地描述了用于生成 AlphaGo 的算法和参数设置。 他们对已完成工作的解释进一步加快了全球学术和工业实验室人工智能研究的疯狂步伐。 这些基于试错学习的强化算法可以应用于无数具有足够标记数据的问题,无论是金融市场、医疗诊断、机器人技术还是战争。 一个新的时代已经开始,它对就业模式、全民监控以及日益严重的政治和经济不平等具有未知但可能具有纪念碑意义的中长期后果。

AlphaGo 对古老的围棋游戏本身有什么影响? 尽管有末日预言家,但无处不在的国际象棋程序的兴起重振了国际象棋,帮助培养了一代又一代更强大的棋手。 围棋界也可能发生同样的情况。 毕竟,任何汽车或摩托车的速度都比任何跑步者快的事实并没有消除跑步的乐趣。 参加马拉松比赛的人比以往任何时候都多。

事实上,可以认为,通过消除不断证明自己是最好的需要,现在更多的人可能会为了围棋本身的缘故,在这种至高无上的审美和智力游戏中享受其朴素的光彩。 在古代中国,任何有教养的学者和绅士都被期望掌握的四艺之一就是围棋。 正如有意义的生活必须为了其内在的原因而被生活和证明一样,围棋也应该为了其内在的价值——为了它带来的乐趣而下。

 

编者注:本文改编自“计算机如何击败围棋大师”一文。

克里斯托夫·科赫 是艾伦研究所和 Tiny Blue Dot 基金会的神经科学家,艾伦脑科学研究所前任所长,以及加州理工学院前教授。 他的最新著作是《那时我自己就是世界》。科赫定期为包括《大众科学》在内的多家媒体撰稿。 他住在太平洋西北地区。

更多作者:克里斯托夫·科赫
SA Mind Vol 27 Issue 4本文最初以“计算机如何击败围棋选手”为标题发表于 SA Mind 第 27 卷第 4 期(),第 20 页
doi:10.1038/scientificamericanmind0716-20
© . All rights reserved.