人类折叠的时候到了:玩扑克的 AI 在德州扑克中击败了职业选手

这项壮举代表了在开发能够利用不完整信息进行学习的人工智能方面向前迈进了一步

DeepStack 人工智能系统在终极的无限注德州扑克版本中表现优于人类,这是一款涉及 10^160 种可能走法的复杂游戏。

扑克如此受欢迎的原因并不神秘:这种充满活力的纸牌游戏产生了戏剧性的场面,玩家们陷入了一场复杂的表演和反应的探戈,随着每次不断升级的下注而变得越来越紧张。使扑克如此有趣的相同元素也为人工智能 (AI) 创造了一个复杂的问题。今天发表在《科学》杂志上的一项研究描述了一个名为 DeepStack 的 AI 系统,该系统最近在单挑无限注德州扑克中击败了职业人类玩家,这一成就代表了 AI 系统可以解决的问题类型的飞跃。

DeepStack 由阿尔伯塔大学的研究人员开发,依赖于人工智能神经网络的使用,研究人员预先训练这些网络以发展扑克直觉。在游戏过程中,DeepStack 利用其扑克智慧将复杂的游戏分解为更小、更易于管理的部分,然后它可以即时处理这些部分。这种策略使其能够击败人类对手。

几十年来,开发人工智能的科学家一直使用游戏来测试其系统的能力并衡量其进展。二十年前,当 IBM 的国际象棋超级计算机深蓝 (Deep Blue) 击败世界国际象棋冠军加里·卡斯帕罗夫时,游戏 AI 取得了突破。去年,谷歌 DeepMind 的 AlphaGo 程序击败了围棋顶级人类职业选手,震惊了世界。然而,像国际象棋和围棋这样的游戏与像扑克这样的游戏之间存在着根本的区别,即玩家可以获得的信息量。“国际象棋和围棋游戏是‘完美信息’游戏,[在这些游戏中]你可以看到你需要的一切信息来做出决定,”IBM 的计算机科学家默里·坎贝尔 (Murray Campbell) 说,他曾在深蓝团队工作,但没有参与这项新研究。“在扑克和其他不完美信息游戏中,存在隐藏信息——只有一名玩家知道的私人信息,这使得游戏变得非常非常困难。”


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


人工智能研究人员长期以来一直在研究扑克——事实上,来自世界各地的 AI 程序已经在扑克锦标赛中与人类对决,包括现已进入第 10 个年头的年度计算机扑克竞赛。单挑无限注德州扑克提出了一个特别令人生畏的 AI 挑战:与所有不完美信息游戏一样,它需要一个系统在没有关键信息的情况下做出决策。然而,它也是一种两人扑克版本,对下注规模没有限制,导致可能出现大量的游戏场景(大约 10160,与围棋中 10170 种可能的走法相当)。到目前为止,玩扑克的 AI 一直试图在游戏开始前计算出在每种可能情况下如何玩。对于像单挑无限注这样真正复杂的游戏,他们依赖于一种称为抽象的策略,其中不同的场景被归为一类并以相同的方式对待。(例如,系统可能不会区分 A 和 K。)抽象简化了游戏,但也留下了对手可以找到并利用的漏洞。

在 DeepStack 中,研究作者、机器学习、游戏和机器人学教授迈克尔·鲍林 (Michael Bowling) 和同事采取了一种不同的方法,将用于像围棋这样的完美信息游戏的 AI 策略调整为单挑无限注的独特挑战。在玩真正的游戏之前,DeepStack 经历了一个密集的训练期,其中包括深度学习(一种使用算法来模拟更高级概念的机器学习类型),在其中它与自己进行了数百万次随机生成的扑克场景,并计算了每种场景的收益。这些答案使 DeepStack 的神经网络(可以随着时间“学习”的复杂计算网络)能够发展出一般的扑克直觉,即使在以前从未遇到过的情况下也能应用。然后,DeepStack 在一台游戏笔记本电脑上运行,与 11 位人类玩家进行了实际的在线扑克游戏。(每位玩家在四周内完成了 3,000 场比赛。)

DeepStack 使用其神经网络将每场游戏分解成更小的部分——在给定的时间,它只考虑未来两到十步。AI 即时解决了每个迷你游戏,在大约三秒钟内处理了数百万种可能的场景,并使用结果来选择最佳走法。“在某种意义上,这可能更接近人类的做法,”鲍林说。“人类当然不会在坐下来玩之前,预先计算出他们在每种情况下将如何玩。与此同时,人类也无法推理出扑克游戏将如何一直进行到最后。”DeepStack 击败了所有 11 位职业玩家,其中 10 位以统计学上显着的优势获胜。

坎贝尔对 DeepStack 的结果印象深刻。“他们展示了一种似乎非常通用的方法,[用于] 处理这些不完美信息游戏,”他说,“并以非常壮观的方式展示它们。”他认为 DeepStack 是 AI 在解决混乱的现实世界问题(例如设计安全系统或进行谈判)方面迈出的重要一步。然而,他补充说,即使像扑克这样的不完美信息游戏仍然比现实世界简单得多,在现实世界中,条件不断变化,我们的目标也并非总是明确的。

DeepStack 并不是唯一一个最近在扑克方面取得成功的 AI 系统。今年 1 月,卡内基梅隆大学的一个团队开发的名为 Libratus 的系统 击败了四位职业扑克玩家(结果尚未在科学期刊上发表)。与 DeepStack 不同,Libratus 没有采用神经网络。相反,该程序在超级计算机上运行,在游戏早期依赖于一种复杂的抽象技术,并在游戏的后期阶段转向类似于 DeepStack 使用的即时推理策略。熟悉这两种技术的坎贝尔表示,尚不清楚哪种技术更优越,他指出,虽然 Libratus 与更优秀的职业选手比赛,但 DeepStack 的获胜优势更大。密歇根大学的计算机科学家迈克尔·韦尔曼 (Michael Wellman) 也未参与这项工作,他认为这两项成功都是“游戏计算中的重要里程碑”。

鲍林看到了未来 AI 研究的许多可能方向,一些与扑克相关(例如可以在六人锦标赛中竞争的系统),另一些则超出扑克范围。“我认为有趣的问题开始转向如果我们正在玩一个我们甚至不知道规则的游戏会发生什么,”他说。“我们经常必须在不完全确定事物实际运作方式的情况下做出决定,”他补充说,这将涉及“构建能够应对这种情况并学会玩这些游戏、在与世界互动时变得更好的智能体。”

© . All rights reserved.