在2017年的一次赌场锦标赛中,一个名为 Libratus 的扑克程序在12万手两人扑克比赛中巧妙地击败了四位职业牌手。但该程序的共同创造者 Tuomas Sandholm 并不相信人工智能能在更多玩家参与的情况下取得类似的表现。
两年后,他证明自己错了。Sandholm 与他人共同创建了一个名为 Pluribus 的人工智能程序,该程序可以在无限注德州扑克六人比赛中持续击败人类专家。“我从没想过我会在有生之年看到这一幕,”卡内基梅隆大学计算机科学教授 Sandholm 说。
过去 人工智能战胜人类 的案例都涉及两人或两队游戏,如跳棋、象棋、围棋和两人无限注扑克。所有这些游戏都是零和游戏——它们只有一个赢家和一个输家。但六人扑克更接近于现实生活中的情况,在现实生活中,一方必须在不了解多个对手的决策过程和资源的情况下做出决策。“这是第一个不是两人或两队零和游戏的主要基准,”Facebook 人工智能研究院研究科学家兼 Pluribus 的共同创造者 Noam Brown 说。“我们第一次超越了这种模式,表明人工智能即使在一般环境中也能表现良好。”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续看到关于塑造我们当今世界的发现和想法的具有影响力的报道。
Pluribus 程序首先证明了其价值,它在六人游戏中盈利,这些游戏只安排一名人类对抗五个独立的 Pluribus 版本。随后,在与五名人类玩家(从15名扑克专业人士的轮换阵容中挑选,他们每人都赢得了至少100万美元的锦标赛奖金)与一个人工智能对战的10,000手扑克和12天的比赛中,它赢得了奖金。《科学》杂志本周发表的一篇论文详细介绍了这些成功。尽管 Pluribus 的胜率没有达到 Libratus 或另一个名为 DeepStack 的双人扑克程序那么高,但它仍然取得了非常可观的胜率。“当机器人与人类坐在一起时,它赚了很多钱,”Brown 说。“我肯定会将其描述为超人的表现。”
密歇根大学计算机科学与工程教授 Michael Wellman 说:“尽管已经有证据表明,征服双人扑克的技术在三人环境中也相当有效,但不清楚它们是否足以达到最高的专业水平。”他没有参与这项研究。“六人扑克如此有效地发挥作用,这确实是新闻。这是一件非常重要的事情——当然是一个值得注意的里程碑。”
为了达到这个水平,Pluribus——像它的前身 Libratus 一样——首先在许多模拟扑克牌局中与自己对弈,制定了一个策略蓝图。使其能够应对六人扑克的重大突破来自于它的“深度有限搜索功能”。该组件允许人工智能向前看几步,并根据对手可能的决策,为游戏的其余部分制定更好的策略。许多其他扑克程序也使用了类似的搜索功能,但对六名玩家这样做将需要不切实际的计算内存:基于每位玩家持有的牌、每位玩家认为其他玩家持有的牌以及随后的所有下注决策,有太多的场景需要模拟。Libratus 通过仅在最后两轮(共四轮)下注中使用搜索来绕过这个瓶颈——但即使如此,在只有两名玩家的游戏中,该解决方案仍然需要使用 100 个中央处理器 (CPU)。
因此,Pluribus 转而部署其深度有限搜索。使用这项技术,人工智能首先考虑它和它的对手在接下来的几步中可能如何出牌。超出这一点,它通过将每个模拟玩家的选择限制为仅四种策略来简化其模型:预先计算的蓝图、一种偏向于弃牌的策略、另一种偏向于跟注的策略以及第四种偏向于加注的策略。这种修改后的搜索有助于解释为什么与过去人工智能在游戏方面取得的超人成就相比,Pluribus 在六人扑克中的成功只需要相对最少的计算资源和内存。具体来说,在现场扑克游戏中,Pluribus 在一台只有两个中央 CPU 和 128 GB 内存的机器上运行。“能够做到这一点已经很了不起了,其次,它可以在没有 [图形处理器] 和没有极端硬件的情况下完成,”Sandholm 说。相比之下,DeepMind 著名的 AlphaGo 程序在其 2016 年与顶级职业围棋棋手李世乭的比赛中使用了 1,920 个 CPU 和 280 个 GPU。
卡内基梅隆大学和 Facebook 计划将 Pluribus 伪代码(程序中每个必要步骤的详细解释)与已发表的论文一起提供,以便其他人工智能研究人员可以普遍复制他们的成果。但该团队决定不发布实际代码;这可能会促进超人扑克程序的传播,这可能会对在线扑克社区和行业造成极大的破坏。但是,即使没有代码,人类也可以开始从人工智能的策略中学习。例如,职业扑克牌手通常认为进行“弱手下注”(donk bet)——在非激进地跟注现有赌注结束上一轮后,通过激进下注开始一轮——是一个错误。但 Pluribus 最终更频繁地使用了这项技术。
除了扑克之外,这种人工智能还可以潜在地应用于任何人必须在不完全了解其他各方可能在想什么或做什么的情况下做出决策的任何情况。这些领域可能包括网络安全、金融交易、商业谈判和竞争性定价。Sandholm 说,人工智能甚至可以帮助 2020 年美国总统选举的党内初选:在一个拥挤的领域竞争的候选人理论上可以从人工智能关于如何花费足够的广告资金以在关键州获胜的建议中受益,从而最大限度地利用有限的竞选资金。Sandholm 创立了三家初创公司,包括 Strategic Machine 和 Strategy Robot 公司,这些公司可能会将这种多人人工智能整合到他们为商业和军事客户提供的服务中。
就 Facebook 而言,它目前没有利用扑克专用 Pluribus 的计划。但 Brown 计划进一步探索人工智能在超出纸牌游戏的更复杂的多人场景中的表现。“我们现在将结束扑克的研究,因为这是最后的里程碑,”Brown 说。“现在我们正在寻求将此扩展到扑克之外。”