AI 对 AI:自学成才的 AlphaGo Zero 击败了它的前身

DeepMind 的围棋人工智能——曾经称霸人类比赛——变得更好了

今年早些时候,AlphaGo 人工智能程序结束了人类在2500 年的围棋棋盘游戏中的霸主地位。DeepMind Technologies 的 AlphaGo 创造者并不满足于以 3-0 战胜世界顶尖棋手,于周三发布了一个增强版本——AlphaGo Zero——该公司表示,该版本在人工智能对决中彻底击败了其前身程序,赢得了所有 100 场比赛。但也许比这些胜利更重要的是 AlphaGo Zero 如何变得如此强大。与最初的 AlphaGo 不同,最初的 AlphaGo 是 DeepMind 随着时间的推移,使用大量人类知识和监督进行训练的,新系统的算法自学掌握了这款游戏。

人工智能让计算机能够识别面孔、提出在线购买建议,甚至平行停放汽车。计算机从人类编写的“学习算法”中获得这些能力,这些算法将大量的训练数据输入到人工神经网络中(以其处理信息的方式命名,这种方式大致基于大脑的神经细胞结构)。这个过程被称为机器学习。在 AlphaGo 的案例中,这包括分析数百万人类围棋专家的走法,以及进行许多、许多次自我对弈,以加强其学习成果。AlphaGo 在五月份击败了世界顶尖人类围棋选手柯洁。在 2016 年 3 月,它借助多个神经网络击败了另一位顶尖大师李世乭,这些神经网络的计算机需要 48 个张量处理单元 (TPU)——专门为神经网络训练设计的专用微芯片。

AlphaGo Zero 的训练涉及四个 TPU 和一个最初对围棋一无所知的单一神经网络。人工智能在没有监督的情况下进行学习——它只是与自己对弈,很快就能够预测自己的走法以及这些走法将如何影响比赛的结果。“这种技术比以前版本的 AlphaGo 更强大,因为它不再受人类知识的限制,”DeepMind 联合创始人戴密斯·哈萨比斯和领导该公司强化学习研究小组的大卫·席尔瓦在一篇博客文章中写道。(DeepMind 是 Alphabet, Inc. 的一个部门,Alphabet, Inc. 是谷歌的母公司。)始终依赖人类知识的人工智能的一个问题是,这些信息可能过于昂贵、不可靠,或者在某些情况下根本不存在。“如果类似的技术可以应用于其他结构化问题,例如蛋白质折叠、降低能源消耗或寻找革命性的新材料,那么由此产生的突破有可能对社会产生积极影响,”该博客文章说。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


AlphaGo Zero 甚至设计了自己的非常规策略。围棋游戏通常使用黑色或白色的“棋子”在 19x19 的棋盘上进行。每位玩家放置棋子的目的是包围对手的棋子。“在训练中,AlphaGo Zero 发现、下出并最终学会了偏爱一系列以前未知的新的定式 [角部序列] 变体,”DeepMind 发言人乔恩·菲尔德斯说。围棋比赛通常从棋盘角部的下法开始,让一方玩家在棋盘上获得更好的整体位置。“就像与李世乭的第二场比赛中的第 37 步一样,这些算法灵感时刻让我们得以一窥 AlphaGo 的创造力以及人工智能的潜力,”这位发言人补充道。安永吉是一位韩国职业围棋棋手,段位为 8 段(9 段为最高段位),在 2016 年 3 月的比赛结束后不久,就将第 37 步挑出来,称之为“罕见且耐人寻味的”一步棋。

DeepMind 的研究描述了“一个非常令人印象深刻的技术成果;而且他们完成这项工作的能力——以及他们在 40 天内,在四个 TPU 上训练系统的能力——是卓越的,”奥伦·埃特佐尼说道,他是艾伦人工智能研究所 (AI2) 的首席执行官,该组织由微软联合创始人保罗·艾伦于 2014 年成立,专注于人工智能的潜在益处。“虽然很多人以前都使用过 [强化学习],但这项工作的技术方面是新颖的。”

埃特佐尼说,AlphaGo Zero 的成功预示着人工智能对游戏的掌握前景光明。不过,“我认为,如果认为我们已经学到了一些关于思维和关于通用智能学习的普遍知识,那就错了,”他补充说。“这种方法不适用于更不结构化的问题,例如自然语言理解或机器人技术,在这些问题中,状态空间更加复杂,并且没有明确的目标函数。”

埃特佐尼说,无监督训练是最终创造能够独立思考的人工智能的关键,但在计算机真正开始跳出框框思考之前,“还需要在棋盘游戏和预定义目标函数之外进行更多研究”。

© . All rights reserved.