“超人般的”人工智能在最难的棋盘游戏中获胜

掌握了国际象棋、围棋和将棋的通用算法,在规则不太明确的游戏中也能同样成功吗?

将棋棋盘。

那是在1997年,在曼哈顿市中心一座摩天大楼的35层。国际象棋大师加里·卡斯帕罗夫难以置信地走下舞台,举起双臂表示失败,他刚刚输给了一台电脑。IBM的“深蓝”计算机击败了这位著名的卫冕国际象棋世界冠军,这标志着计算机智能的新纪元——机器正在超越人类。

20多年来,人工智能突飞猛进。虽然“深蓝”凭借强大的计算能力击败了卡斯帕罗夫,但更新的计算机技术实际上可以自主学习和推断解决方案。人工智能公司DeepMind(隶属于Alphabet,谷歌的母公司)的最新研究又向前迈进了一步。

今天发表在《科学》杂志上的DeepMind的AlphaZero系统,不仅在国际象棋方面,而且在将棋(又名“日本象棋”)和围棋(一种古老的中国棋盘游戏,其走法可能性之多令人震惊,约为国际象棋的300倍)方面,都展现出了超人的成功。这项技术一旦完全开发出来,将具有广泛的用途——从药物开发到数学,再到材料设计。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保未来能够继续报道关于塑造我们当今世界的发现和想法的具有影响力的故事。


许多早期的游戏技术最初需要人类提供信息——它们必须经过预先设置才能处理特定任务。然而,AlphaZero算法可以自主学习如何“玩”游戏。它通过强化学习来实现这一点,强化学习是指机器通过试验、错误和奖励来学习交互式环境的概念。在新的研究中,AlphaZero与自己对弈了约6000万局,以加强其对规则的“理解”。

然后,它能够与领先的国际象棋程序Stockfish(对于人类来说几乎是不可能击败的)相抗衡——在1000局比赛中赢了155局,只输了6局,其余的都是平局。AlphaZero还击败了世界冠军将棋算法Elmo,胜率达到91%,并击败了AlphaGo——它自身早期版本,专门为下围棋而设计——在61%的对局中获胜。

这里的一个重大进步表明,AlphaZero不像以前的游戏技术那样仅限于一项功能。DeepMind似乎开发出了一种算法,可以掌握许多甚至大多数具有固定规则的棋盘游戏。“我们非常兴奋,我们有一个程序可以完全学习这些游戏,而无需人类知识的[帮助],”AlphaZero首席工程师Julian Schrittwieser说。“总的来说,这是一种试图解决复杂、多步骤问题的算法。”

AlphaZero非凡的计算能力部分归功于使用了5000个所谓的张量处理单元,即TPU。TPU是谷歌在过去几年开发的,是专门为人工智能算法处理而设计的微处理器。在新的研究中,处理器驱动了自我对弈,从而实现了机器学习。“一种通用的学习算法已经学会了玩各种棋盘游戏,而无需编码大量关于特定游戏的知识,这当然很酷,”计算机工程师、Stockfish的贡献者Daylen Yang说,他没有参与DeepMind的研究。“AlphaZero表明它可以自动学习这些知识——至少如果你有谷歌的5000个TPU,这可是大量的计算!”

现代计算机科学实际上是从国际象棋游戏开始的。自20世纪40年代该领域创立以来,艾伦·图灵和克劳德·香农等先驱就一直在开发算法来击败国王、骑士和皇后。“国际象棋随后成为一代人工智能研究人员的重大挑战任务,”DeepMind的作者写道。

IBM计算机科学家默里·坎贝尔在对DeepMind的新论文的评论中写道,棋盘游戏是人工智能的合乎逻辑的起点。玩游戏所需的所有信息对玩家都是可见的,因此比扑克(玩家对对手的一些牌是蒙在鼓里的)更容易分析。

尽管如此,纸牌游戏也取得了进展。最近,两个独立的研究小组报告称,他们开发出了能够在无限注德州扑克中击败职业扑克玩家的算法。人工智能研究人员的另一个挑战将是多人视频游戏。DeepMind和其他地方的研究人员目前正在研究算法,以应对《星际争霸II》等游戏——在模拟真实世界场景的大型、仅部分可观察的物理空间中,多个玩家进行互动。

Schrittwieser对人工智能技术的稳步发展前景充满乐观。“我们希望研究在科学和医学领域的应用。也许我们有一组分子,需要弄清楚它们如何相互作用才能开发出一种新药,”他设想道。“或者,也许一位数学家有一个理论,我们的算法可以帮助他们通过一系列步骤得出证明。”

与最近在中国一位科学家声称已经编辑了人类胚胎基因组而引起的强烈反对一样,人工智能的进步也带来了一定的不安。尽管埃隆·马斯克对计算机学习创造“不朽的独裁者”和助长人类无关紧要地位发出了可怕的警告,但包括Schrittwieser在内的许多计算机科学家都认为,该领域应谨慎和透明地前进。“我们正以极大的谨慎态度面对智能机器,”他说。“这与任何其他行业没有什么不同。我们有包括来自DeepMind、谷歌和Facebook等公司的人员组成的委员会,以确保人工智能的伦理道德。”

就像基因编辑一样,对计算机学习系统的追求似乎是不可避免的。目前看来,人类可以避免机器强加的将死局面。“我更多地将其视为人类使用的工具——帮助他们完成任务,”Schrittwieser说。“就目前而言,它正在为国际象棋棋手带来新的灵感。”

Bret Stetka 是纽约市的一位作家,也是Medscape Neurology(WebMD的子公司)的编辑主任。他的作品曾发表在Wired、NPR和Atlantic上。他于2005年毕业于弗吉尼亚大学医学院。Stetka于2022年去世。

更多作者:Bret Stetka
© . All rights reserved.