计算机首次击败围棋冠军

谷歌的DeepMind程序掌握了拥有2500年历史的围棋,这是人工智能领域的一项重大成就

©iStock.com

自20世纪90年代以来,计算机在击败人类的游戏方面不断进步,例如象棋、跳棋、扑克和《危险边缘!》。但是,有一项游戏是人类专家玩家持续优于机器的:围棋。这项拥有2500多年历史的棋盘游戏非常复杂,两位玩家使用黑白棋子试图比对手占领更多领地,这使得计算机难以掌握。但人类在围棋上的优势似乎终于结束了——谷歌DeepMind的研究人员今天宣布,他们创造了一个复杂的人工智能(AI)程序——深度神经网络和搜索技术的结合——在历史上首次击败了围棋冠军。

去年十月在伦敦,DeepMind团队邀请了欧洲围棋冠军樊麾与他们的程序对弈,

AlphaGo。这场比赛是私密的,只有少数观众见证。樊麾和AlphaGo在一个19x19的完整棋盘上进行对弈。AlphaGo此前已经与最先进的围棋程序(如Crazy Stone和Zen)进行了测试,并在495场比赛中赢得了除一场之外的所有比赛。但是,与人类专家对弈比与其他计算机对弈更具挑战性,因为职业棋手仍然要优秀得多——他们拥有多年的游戏经验,并且对如何下棋有一定的直觉。因此,当AlphaGo以5-0赢得比赛时,这是一件大事。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于发现和塑造我们当今世界的想法的具有影响力的故事。


许多人预测,计算机至少在未来10年内不会击败围棋冠军。“这种性能的飞跃是完全出乎意料和前所未有的,”亚马逊的软件工程师、计算机围棋程序的创建者David Fotland说,他没有参与这项研究。

要理解DeepMind的研究人员为创建如此令人印象深刻的程序所做的工作,您首先必须了解为什么围棋对计算机来说是一项如此难以精通的游戏。首先,围棋有极其多的可能走法和结果——据研究人员称,围棋中可能的局面比宇宙中原子的数量还要多。该研究的作者之一,DeepMind的联合创始人Demis Hassabis将围棋与象棋进行了比较,他说,在一盘象棋游戏中,平均每回合有20种可能的走法,而在围棋中,每回合平均有200种可能的走法。这意味着,如果计算机要搜索围棋中所有可能的走法和结果,就需要大量的计算能力,有些人认为这甚至是不可能的。

阿尔伯塔大学的计算机科学家Jonathan Schaeffer解释说,计算机难以掌握围棋的另一个原因是,围棋玩家需要大量的知识储备——过去的对弈经验——来借鉴。“对于象棋,你可以输入少量的知识,就可以构建一个强大的游戏程序,”未参与这项研究的Schaeffer说,“但在围棋中你不能。” 这是因为在象棋中,计算机可以遵循预先设定的规则,但将这种策略用于围棋是行不通的,因为围棋主要关于模式,而不是可以写下来的一套逻辑规则。

DeepMind团队的系统解决了大规模搜索和知识匮乏这两个问题。在本周《自然》杂志上发表的一项新研究中,他们描述了如何结合搜索技术和深度学习来克服这些障碍。(《大众科学》是自然出版集团的一部分。)

为了解决知识问题,他们使用了所谓的深度神经网络——在本例中是两个13层深的神经网络,由数百万个连接组成,类似于人脑中的神经连接。研究人员使用两种方法训练这些网络:对于一个网络,他们向计算机展示了来自人类专家对弈的超过3000万步棋(这有助于系统学习最佳棋手如何获胜);对于这两个网络,研究人员都让计算机与自己对弈数千局,以便它可以发现新的策略并自主学习游戏。这两种训练策略使计算机能够识别游戏中的模式,并确定哪些走法使其获胜的几率最大。

为了解决棘手的搜索问题,研究人员利用了一种称为蒙特卡洛树搜索的特殊搜索技术。这种方法已经存在多年,并被用于其他计算机游戏程序中,它本质上允许系统使用统计数据作为捷径来确定最佳走法,而不是穷尽给定走法的每一种可能结果(在围棋中这将花费永远的时间)。

DeepMind团队使用的搜索技术和深度学习工具并非新事物。许多计算机围棋程序已经使用了蒙特卡洛树搜索,并且也使用了神经网络。但使DeepMind的AlphaGo如此先进的原因在于他们将这些工具组合在一起的方式,以及深度神经网络的高性能。“主要的创新之处在于他们如何将这些不同的要素结合在一起——他们在这方面进行了创新,”未参与这项工作的蒙特利尔大学计算机科学家Yoshua Bengio说。Schaeffer表示他对结果印象深刻:“这是一种比过去人们所做的更简单、更全面的方法,而且更优雅,”他说,“我认为这是一个巨大的进步。” 这正是AlphaGo在与樊麾的比赛中胜出的原因——计算机以5-0获胜。

尽管并非所有人都在意计算机击败围棋冠军,但这一进步在其他领域也很重要。Hassabis说,构建该系统的研究人员使用“通用方法”而不是创建专门用于下围棋的程序,目的是“最终将这些技术应用于重要的现实世界问题”,“我们希望有一天它们可以扩展到帮助我们解决社会上最棘手和最紧迫的一些问题,从气候建模到复杂疾病分析。” Yoshua Bengio表示,另一个可能的重要应用是在计算机对话方面,Schaeffer表示,未来这些程序可能能够为可以表达为游戏的抽象社会问题(如国家政治或国际气候谈判)提出答案。

但AlphaGo首先有一个更紧迫的问题:如何击败世界最佳围棋棋手李世乭。今年三月,两人将在韩国首尔对弈。尽管AlphaGo对阵樊麾表现出色,但Schaeffer和Fotland仍然预测李世乭将赢得比赛。“我认为职业棋手会赢,”Fotland说,“但我认为职业棋手会对这个程序的强大程度感到震惊。” 目前,至少有些人仍然将赌注押在人类身上。

© . All rights reserved.