职业扑克玩家知道最优策略,但并不总是使用它

扑克玩家现在可以利用人工智能来找到最优的 playing 策略,但他们通常不使用它。这是为什么

Perfect spade royal flush playing cards spread on a vivid orange background.

Andrii Sedykh/Getty Images

“全下。” 你的对手将一叠筹码滑过高 stakes 扑克桌。你瞥了一眼你的牌,一对六。游戏是 德州扑克。只剩下你们两个人,并且还没有发出公共(面朝上)牌。在扑克中,很少有比这更简单的情况了,你有一个二元选择要做:跟注(匹配你对手的下注)或弃牌(放弃)。但对于职业玩家来说,每一个细节都需要考虑。在全下之前,下注模式是什么?谁先行动?每个玩家有多少筹码,彩池里有多少?盲注或强制下注何时增加?当然,六子获胜的可能性有多大?你研究过扑克策略,记住了 概率 表格,并在脑海中计算了数字。这一切都指向弃牌是客观上最佳的决定。但是你在一场漫长的比赛中注意到,你的对手倾向于用平庸的牌过度下注。你是坚持你的训练并弃牌,还是根据你观察到的弱点即时调整你的策略?

关于是否使用所谓的“博弈论最优与剥削性玩法”的问题,抓住了 高水平扑克 的核心对话。它的数学基础可以追溯到 80 年前,但人工智能的快速发展已将 20 世纪中叶的数学带到现代游戏的最前沿。新的工具教会扑克玩家 最优策略 来玩游戏,那么他们为什么要拒绝使用它呢?

[在我们新的游戏版块玩受科学启发的游戏、谜题和测验]


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的 impactful 故事的未来。


最优玩法?

在基于随机发牌和复杂人类心理学的游戏中,客观最优的玩法可能看起来违反直觉。以虚张声势为例——当玩家假装他们持有无敌的牌,以吓唬对手弃牌时。谎报自己的牌感觉本质上是心理上的,并且抵制严格的客观性模式。但是我们永远不应低估数学家将人类行为转化为整洁方程式的诀窍。

事实上,数学家约翰·冯·诺伊曼和经济学家奥斯卡·摩根斯坦于 1944 年出版的关于数学博弈论的基础性著作《博弈论与经济行为》强调扑克是一个核心例子。作者分析了一个简化的变体,该变体将游戏提炼为其最基本的动态:两名玩家将各自收到一个介于 0 和 1 之间的数字,较高的数字代表较强的牌,然后进行一轮下注。冯·诺伊曼和摩根斯坦不仅证明了最优策略的存在,而且证明了虚张声势是该策略的重要组成部分。

当然,德州扑克的复杂性远高于这个玩具示例。谁能说最优策略甚至存在于成熟的多人扑克中呢?已故数学家约翰·纳什就是这样说的。在 20 世纪 50 年代,纳什继续在 1994 年获得诺贝尔经济学奖,并后来在 2001 年的传记片 美丽心灵 中被描绘,推动了当时新兴的博弈论领域。他最著名的发现,现在称为纳什均衡,发生在当游戏中没有玩家会通过偏离他们选择的策略而获益时(假设其他人不偏离他们的策略)。

博弈论专家 认为这种情况是最优的,因为如果你和我玩一个游戏,我们每个人都以任何旧策略开始,然后我调整我的策略以利用我看到你正在做的事情,然后你反过来适应我的变化,等等,我们最终将达到一个稳定状态,在这种状态下,我们俩都无法继续改进。有了纳什均衡,玩家甚至可以提前宣布他们的策略,但每个人最好的做法仍然是坚持均衡。在 1950 年的一篇 一页纸的论文 中,约翰·纳什证明了每个有限的竞争性游戏——从麻将到万智牌:The Gathering——都至少有一个纳什均衡。

尽管其名称如此,博弈论适用于传统游戏之外的广泛主题,包括经济系统、核威慑和进化生物学。对于该领域的研究人员来说,游戏是指理性决策者之间任何互动,他们的行动和收益可以被严格定义和分析。因此,纳什定理具有广泛的影响。 在扑克中,它证明了在一个曾经被认为依赖于直觉和解读面部表情的游戏中寻找最优策略是合理的。

人工智能扑克革命

仅仅因为我们知道德州扑克有纳什均衡,这并不意味着我们知道它是什么样的。随着游戏复杂性的增加,它们的最优策略往往变得更难弄清楚。任何人都可以通过记住几个移动序列,在一个坐姿中学会如何完美地玩井字棋。对于更复杂的游戏,例如跳棋,在完美玩法下总是以平局结束,人类永远无法记住足够的变化来实施最优策略。 科学家们已经创造了无与伦比的算法,可以最优地玩游戏,但是,因为计算机可以存储大量的位置数据库,并以人类无法做到的方式广泛搜索游戏树。与此同时,自 1997 年左右以来,国际象棋计算机已经统治了最优秀的人类玩家(当时世界冠军加里·卡斯帕罗夫输给了 IBM 的深蓝 历史性比赛),但国际象棋计算机仍然没有表现出最优的玩法——下一代国际象棋引擎将碾压今天的引擎。

与国际象棋不同,扑克涉及不完全信息。玩家知道自己的牌,但不知道竞争对手的牌,这使得该游戏在计算建模方面更令人生畏。这解释了为什么扑克算法革命直到最近的人工智能热潮才到来。2015 年,计算机科学家 宣布了一种算法,该算法针对仅有两个玩家和约束下注规模的受限版本游戏,展示了基本上完美的玩法。仅仅四年后,我们得到了 第一个用于多人德州扑克的超人人工智能。随后出现了一系列商业上可用的软件工具,称为“求解器”,在短短几年内,每个有几百美元闲钱的赌棍(以扑克为生的人)都拥有了一个触手可及的牌桌高手,可以告诉他们在几乎每种情况下如何玩牌。

前职业扑克玩家 Liv Boeree 说:“游戏从模糊的艺术变成了硬科学。” 为了在今天的环境中保持领先,高级玩家通过使用计算机程序(如 PioSOLVER)来研究游戏,该程序可以近似最优策略。对于简单和常见的情况,职业玩家会记住机器的建议,而他们从机器在罕见和更复杂情况下的行为中获得更高级别的经验。对于任何精英扑克玩家来说,使用这些求解器进行学习都是必不可少的。“如果你想在高 stakes 中对抗最优秀的玩家,绝对……如果你不使用求解器,你会被生吞活剥,”世界扑克系列赛冠军 Boeree 说。“有些玩家只是拒绝了整个概念,他们不使用求解器……而且在很大程度上,他们被甩在了后面。”

人工智能既证实了一些关于德州扑克策略的常识,也推翻了一些玩家一直犯错的格言。例如,计算机发现在“领头下注”中获得成功——在仅仅跟注另一位玩家在前一轮的下注之后,在一轮下注中发起第一个下注——尽管民间认为领头下注是 业余举动。在专家级人类倾向于弃牌的情况下,人工智能也玩更广泛的牌。像国际象棋引擎一样,多人扑克求解器实际上并没有最优地玩游戏,但它们彻底击败了人类,以至于我们可以从它们身上学到很多东西。

如何获胜

在定义纳什均衡时,我偷偷地加入了一个关键细节:当没有玩家会通过偏离他们选择的策略而获益时(假设其他人不偏离他们的策略),均衡就会发生。但是,当其他玩家确实偏离了这一点时,通常明智的做法是偏离以回应。

以石头剪刀布为例来说明。它的纳什均衡是什么?想一会儿:来自双方玩家的什么策略不会留下偏离的动机?答案:玩家应该完全随机地抛出石头、剪刀和布;每个都有三分之一的机会出现,而与之前的所有轮次无关。您可以提前向您的对手宣布此策略,他们将无力利用您的坦诚。

如果你和你的对手都采用这种均衡策略,你可以预期赢得一半的决定性回合(忽略平局)。现在假设你的对手偏离了。在极端情况下,想象一下他们总是出布。如果你坚持均衡策略,那么你仍然会赢得一半的决定性回合,因为你玩获胜的剪刀和失败的石头的频率相同。但是你可以通过总是出剪刀并在每一轮都剪他们的布来利用对手的偏离。不太剧烈的偏离仍然给你利用的机会。例如,关于石头剪刀布的实证研究 表明,当人们赢得一轮时,他们更有可能重复他们刚刚赢得的那次投掷。了解这一点可以给你带来优势。例如,如果你刚刚输给了石头,那么接下来出布,因为你的对手很可能再次出石头。纳什均衡是唯一不受剥削的策略。

同样的动态在扑克中以更复杂的规模发挥作用。随着玩家从他们的人工智能协作者那里学习到更多最优技术,他们也学会了如何嗅探出他们的对手何时未能达到最优玩法,以及如何最好地惩罚他们。

你可能会认为这里有一个陷阱。如果你的对手偏离了,难道最优的决定不是无情地利用他们,而不是盲目地坚持纳什均衡并把潜在的钱留在桌子上吗?如果你发现对手以可预测的方式偏离纳什均衡,那么你自己偏离以利用他们的弱点可能会为你带来更多的钱。但是,一旦你利用了他们,现在就偏离了均衡,并让自己容易受到剥削。如果你的对手总是出布,而你开始只出剪刀,最终他们会意识到并开始用石头打你的剪刀。

正如前扑克职业玩家 Igor Kurganov 所说,“每当你发现对手的错误时,你都会改进你对他们如何看待游戏的模型,调整你与他们对战的方式以解释该错误,并通过这样做,让自己变得容易被利用。”

大多数玩家都同意,为了在扑克顶级水平保持竞争力,他们必须混合使用博弈论的最优玩法和剥削性玩法。最优更偏向防御,而剥削性更偏向进攻。一些老师建议,你应该通过模仿最优玩法来开始比赛——只有在你花时间观察到对手的弱点之后,你才应该掺入你的利用。在策略之间切换的灵活性将鱼与鲨鱼区分开来。“你越确定你比[你的对手]更聪明地看待游戏,这个整个过程就效果越好,”Kurganov 说,并补充说“当你觉得他们和你一样好甚至比你更好时,你做的剥削性调整就越少。”

对于某些人来说,超人扑克引擎的出现已经剥夺了游戏的趣味性,而另一些人则认为计算机为游戏增加了一个新的层次。Boeree 于 2019 年从职业扑克界退休,现在担任科学传播者、慈善家和播客主持人,她更倾向于前一种阵营。“感觉就像它带走了一点游戏的魔力,就像,‘哦,好吧,谜团已经解开了,’”她说。但 Boeree 承认,扑克的新时代并不缺乏爱好者。“自从 COVID 以来,它一直在蓬勃发展,”她补充道。“世界扑克系列赛去年的玩家比以往任何时候都多。记录正在被打破。所以很明显,它并没有杀死游戏。”相反,我们可能会说,扑克不断变化的格局仍在寻找其均衡。

Jack Murtagh 是一位自由数学作家和谜题创作者。他为《大众科学》撰写关于 数学奇趣 的专栏,并为 Morning Brew 新闻通讯创作 每日谜题。他拥有哈佛大学理论计算机科学博士学位。在 X 上关注 Jack @JackPMurtagh

更多作者:Jack Murtagh
Digital Issues Vol 1 Issue 1这篇文章最初以“纳什均衡是最优扑克策略。专家级玩家并不总是使用它”为标题发表于 数字期刊 第 1 卷第 1 期(
doi:10.1038/scientificamerican082024-4s8qNUw2Ecpnwe1ktYk9Uj
© . All rights reserved.