露西和皮特从遥远的太平洋岛屿返回,发现航空公司损坏了他们各自购买的相同的古董。一位航空公司经理说,他很乐意赔偿他们,但他不了解这些奇怪物品的价值,因此感到为难。他认为,简单地询问旅客价格是没用的,因为他们会虚报价格。
相反,他设计了一个更复杂的方案。他要求他们每个人写下古董的价格,价格可以是 2 到 100 之间的任何美元整数,并且不能互相商量。如果两人写下相同的数字,他将认为那是真实的价格,并向他们每人支付该金额。但如果他们写下不同的数字,他会认为较低的数字是实际价格,而写较高数字的人是在作弊。在这种情况下,他将向他们两人支付较低的数字,并加上奖金和惩罚——写较低数字的人将获得 2 美元的奖励以表彰诚实,而写较高数字的人将受到 2 美元的惩罚。例如,如果露西写 46,皮特写 100,露西将获得 48 美元,皮特将获得 44 美元。
露西和皮特会写什么数字?你会写什么数字?
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于塑造我们当今世界的发现和思想的具有影响力的故事。
这种情景,即一个或多个人有选择要做,并将根据这些选择获得奖励,被研究它们的人(博弈论学家)称为博弈。我在 1994 年设计了这个名为“旅行者的困境”的游戏,目的有几个:反驳经济学家和许多政治科学家对理性行为和认知过程的狭隘看法,挑战传统经济学的自由主义假设,并突出理性的逻辑悖论。
旅行者的困境(TD)实现了这些目标,因为游戏的逻辑表明 2 是最佳选择,但大多数人选择 100 或接近 100 的数字——包括那些没有想透逻辑的人和那些完全理解他们正在明显偏离“理性”选择的人。此外,玩家通过不以这种方式遵守理性而获得更大的回报。因此,在玩“旅行者的困境”时,选择不理性是有一定道理的。
自我设计这个游戏以来的几年里,TD 已经有了自己的生命力,研究人员对其进行了扩展,并报告了实验室实验的发现。这些研究产生了对人类决策的深刻见解。然而,关于如何将逻辑和推理应用于 TD,仍然存在未解决的问题。
常识与纳什
为了理解为什么 2 是逻辑选择,请考虑露西可能采取的一种合理的思路:她的第一个想法是她应该写下尽可能大的数字 100,如果皮特也同样贪婪,这将为她赚取 100 美元。(如果这件古董实际上花费远低于 100 美元,她现在会很高兴地想到航空公司经理的计划有多么愚蠢。)
然而,很快她意识到,如果她写 99 而不是 100,她会赚更多的钱,因为那样她会得到 101 美元。但可以肯定的是,皮特也会想到这一点,如果两人都写 99,露西就会得到 99 美元。如果皮特写 99,那么她可以通过写 98 来做得更好,在这种情况下她会得到 100 美元。然而,同样的逻辑也会导致皮特也选择 98。在这种情况下,她可以偏离到 97 并赚取 99 美元。以此类推。继续这种推理方式将使旅客螺旋式下降到最小的允许数字,即 2。露西真的会以这种方式一路降到 2,这似乎是难以置信的。但这并不重要(事实上,这正是重点)——这就是逻辑引导我们的方向。
博弈论学家通常使用这种分析风格,称为逆向归纳法。逆向归纳法预测,每个玩家都会写 2,他们最终每人都会得到 2 美元(这个结果可能解释了为什么航空公司经理在他的职业生涯中如此成功)。博弈论学家使用的几乎所有模型都预测了 TD 的这种结果——如果两个玩家都天真地选择 100 而没有考虑选择较小数字的优势,那么他们获得的收益将比现在少 98 美元。
旅行者的困境与更流行的囚徒困境有关,在囚徒困境中,两名因重罪被捕的嫌疑人被分开审讯,每个人都可以选择指证对方(以换取当局的宽大处理)或保持沉默(如果另一名囚犯也保持沉默,这将导致警方没有足够的证据立案)。这个故事听起来与我们关于两位纪念品受损的旅行者的故事截然不同,但囚徒困境中每个选项的奖励的数学原理与 TD 的一个变体相同,在该变体中,每个玩家只能选择 2 或 3,而不是 2 到 100 之间的每个整数。
博弈论学家分析博弈时,会去除所有彩色叙事的装饰,而是研究每个博弈的所谓收益矩阵——一个包含关于每个玩家的潜在选择和收益的所有相关信息的正方形网格[参见对页的方框]。露西的选择对应于网格的一行,皮特的选择对应于一列;选定方格中的两个数字指定了他们的奖励。
尽管名称如此,但囚徒困境和旅行者的困境的双重选择版本并没有给玩家带来真正的困境。每个参与者都看到了明确的正确选择,即 2(或者,用囚徒故事线的话来说,指证另一个人)。该选择被称为占优选择,因为无论其他玩家做什么,这都是最好的选择。通过选择 2 而不是 3,如果皮特选择 3,露西将获得 4 美元而不是 3 美元;如果皮特选择 2,她将获得 2 美元而不是一无所获。
相比之下,完整版本的 TD 没有占优选择。如果皮特选择 2 或 3,露西最好的选择是 2。但如果皮特选择 4 到 100 之间的任何数字,露西最好选择大于 2 的数字。
在研究收益矩阵时,博弈论学家最常依赖纳什均衡,纳什均衡以普林斯顿大学的约翰·F·纳什 Jr. 的名字命名。(罗素·克劳在电影《美丽心灵》中扮演了纳什。)纳什均衡是一种结果,任何玩家都无法通过单方面偏离该结果而做得更好。考虑 TD 中的结果 (100, 100)(第一个数字是露西的选择,第二个是皮特的选择)。如果露西将其选择更改为 99,则结果将为 (99, 100),她将赚取 101 美元。由于露西通过这种改变变得更好,因此结果 (100, 100) 不是纳什均衡。
博弈论预测,当理性地玩“旅行者的困境”时,纳什均衡将会发生。
TD 只有一个纳什均衡——结果 (2, 2),即露西和皮特都选择 2。纳什均衡的普遍使用是如此多的形式分析预测 TD 的这种结果的主要原因。
博弈论学家确实有其他均衡概念——严格均衡、可理性化解、完美均衡、强均衡等等。这些概念中的每一个都导致对 TD 的预测 (2, 2)。问题就在这里。我们大多数人在反思时都觉得我们会玩一个更大的数字,并且平均而言,会赚到远高于 2 美元的钱。我们的直觉似乎与所有博弈论相矛盾。
对经济学的影响
这个游戏和我们对其结果的直觉预测也与经济学家的观点相矛盾。早期的经济学牢牢地束缚于自由主义的假设,即个人应该被放任自流,因为他们的自私选择将导致经济高效运行。博弈论方法的兴起已经很大程度上使经济学摆脱了这种假设。然而,这些方法长期以来一直基于人们会做出博弈论可以预测的自私理性选择的公理。TD 既削弱了不受约束的自私对经济有利的自由主义观点,也削弱了人们会自私和理性的博弈论原则。
在 TD 中,“有效”的结果是两位旅客都选择 100,因为这会导致两位玩家的总收入最大化。自由主义的自私会使人们从 100 转向较低的数字,效率较低,希望获得更多的个人利益。
而且,如果人们不玩纳什均衡策略(2),那么经济学家关于理性行为的假设应该被修正。当然,TD 并不是唯一挑战人们总是做出自私理性选择的信念的游戏[参见卡尔·西格蒙德、恩斯特·费尔和马丁·A·诺瓦克的《公平竞争的经济学》;《大众科学》,2002 年 1 月]。但它提出了一个更令人困惑的观点,即即使玩家除了自己的利润外没有其他顾虑,他们以形式分析预测的方式进行游戏也是不理性的。
TD 对我们理解现实世界的情况还有其他影响。该游戏揭示了军备竞赛如何作为一个渐进的过程发挥作用,以小步方式将我们带向越来越糟糕的结果。理论家们还试图扩展 TD,以了解两家竞争公司如何以损害自身利益为代价相互压低价格(尽管在这种情况下,这对从他们那里购买商品的消费者有利)。
所有这些考虑都引出了两个问题:人们实际上是如何玩这个游戏的?如果大多数人选择一个远大于 2 的数字,我们能否解释为什么博弈论未能预测到这一点?关于前一个问题,我们现在了解了很多;关于后一个问题,我们知之甚少。
人们的实际行为方式
在过去的十年中,研究人员对 TD 进行了许多实验,产生了若干见解。弗吉尼亚大学的 C. Monica Capra、Jacob K. Goeree、Rosario Gomez 和 Charles A. Holt 进行了一项著名的实验室实验,该实验使用真钱,以经济学专业的学生为玩家。学生们因参与而获得 6 美元的报酬,并保留了他们在游戏中赚取的任何额外资金。为了使预算可控,选择以美分而不是美元计价。选择范围为 80 到 200,惩罚和奖励的价值在游戏的多次运行中有所不同,低至 5 美分,高至 80 美分。实验人员想看看改变惩罚和奖励的幅度是否会对游戏的玩法产生影响。改变奖励和惩罚的大小不会改变任何形式分析:逆向归纳法总是导致结果 (80, 80),这在每种情况下都是纳什均衡。
实验证实了直觉预期,即普通玩家不会玩纳什均衡策略 80。在奖励为 5 美分的情况下,玩家的平均选择为 180,当奖励升至 80 美分时,平均选择降至 120。
Capra 和她的同事还研究了玩家的行为如何因反复玩 TD 而改变。他们会学会玩纳什均衡吗,即使这不是他们的第一直觉?果然,当奖励很大时,游戏玩法随着时间的推移而收敛,向下朝纳什结果 80 收敛。然而,有趣的是,对于小奖励,游戏玩法却朝着相反的极端 200 增加。
人们大多不玩纳什均衡这一事实从一项基于网络的实验中得到了进一步证实,该实验没有实际支付,由特拉维夫大学和纽约大学的 Ariel Rubinstein 于 2002 年至 2004 年进行。该游戏要求将要参加 Rubinstein 关于博弈论和纳什的讲座的玩家选择一个介于 180 和 300 之间的整数,他们将其视为美元金额。奖励/惩罚设置为 5 美元。
来自七个国家的大约 2,500 人做出了回应,提供了横截面视图和实验室中不可行的样本量。不到七分之一的玩家选择了该情景的纳什均衡 180。大多数人(55%)选择了最大数字 300 [参见下页的方框]。令人惊讶的是,不同亚组(例如来自不同国家的人)的数据非常相似。
然而,产生这种选择模式的思维过程仍然神秘莫测。特别是,最受欢迎的响应 (300) 是游戏中唯一“占优”的策略——这意味着还有另一种策略 (299) 永远不会更差,有时会更好。
Rubinstein 将可能的选择分为四组数字,并假设每组数字背后都有不同的认知过程:300 是一种自发的的情感反应。选择 295 到 299 之间的数字涉及战略推理(例如,一定程度的逆向归纳法)。181 到 294 之间的任何数字都几乎是随机选择。最后,标准博弈论解释了 180 的选择,但玩家可能自己想出了这一点,或者可能对游戏有先前的了解。
对 Rubinstein 关于前三组数字的猜想的检验是查看每个玩家做出决定所花费的时间。事实上,选择 295 到 299 之间数字的人平均花费的时间最长(96 秒),而选择 181 到 294 和 300 的人花费的时间约为 70 秒——这种模式与他的假设相符,即选择 295 到 299 之间数字的人比做出其他选择的人思考得更多。
博弈论学家已经多次尝试解释为什么在 TD 实验中,很多玩家没有选择纳什均衡。一些分析师认为,许多人无法进行必要的演绎推理,因此在不知不觉中做出了非理性选择。这种解释在某些情况下肯定是正确的,但它并不能解释所有结果,例如 2002 年由德国霍恩海姆大学的 Tilman Becker、Michael Carter 和 Jorg Naeve 获得的结果。在他们的实验中,博弈论协会的 51 名成员(几乎所有成员都是专业的博弈论学家)玩了原始的 2 到 100 版本的 TD。他们通过选择一种策略并将其发送给研究人员,与他们的 50 名对手中的每一位进行对弈。该策略可以是每个游戏中使用的单个数字,也可以是一系列数字以及每个数字的使用频率。该游戏有一个真金白银的奖励系统:实验人员会随机选择一名玩家,赢得 20 美元乘以该玩家在游戏中的平均收益。结果证明,获胜者的平均收益为 85 美元,赚了 1,700 美元。
在 51 名玩家中,有 45 名选择在每个游戏中使用单个数字(其他六名指定了多个数字)。在这 45 名玩家中,只有 3 名选择了纳什均衡 (2),10 名选择了占优策略 (100),23 名选择了 95 到 99 之间的数字。据推测,博弈论学家知道如何进行演绎推理,但即使是他们,也基本上没有遵循形式理论所规定的理性选择。
从表面上看,他们的选择似乎很容易解释:大多数参与者准确地判断出他们的同伴会主要选择 90 多的数字,因此选择类似的高数字将获得最大的平均回报。但是,为什么每个人都期望其他人都选择高数字呢?
也许利他主义与自私一起根植于我们的心理,而我们的行为是两者之间争斗的结果。我们知道,如果我们都选择 100,航空公司经理将支付最多的钱。我们中的许多人都不想“辜负”我们的同伴旅客,试图只赚取额外的一美元,因此我们选择 100,即使我们完全理解,从理性上讲,99 对我们个人来说是更好的选择。
为了进一步解释在这些实验中看到的更多行为,一些经济学家做出了强烈且不太现实的假设,然后从复杂的模型中推导出了观察到的行为。我不相信我们能从这种方法中学到太多东西。随着这些模型和假设变得越来越复杂以适应数据,它们提供的洞察力也越来越少。
未解决的问题 然而,仍然存在的挑战不是解释在 TD 中呈现的普通人的真实行为。部分由于实验,似乎利他主义、社会化和错误的推理指导了大多数个人的选择。然而,我不认为如果从画面中消除这三个因素,许多人会选择 2。如果确实大多数人继续选择较大的数字,可能在 90 多岁,即使他们不缺乏演绎能力,并且他们压抑了正常的利他主义和社会行为,为了尽可能多地赚钱而无情地玩游戏,我们该如何解释这一点?与现代博弈论的大部分内容不同,后者可能涉及大量数学,但一旦掌握了技巧,就很简单明了,这个问题是一个需要创造性思维的难题。
假设你和我都是这些聪明、无情的玩家中的两个。我们脑子里会想些什么?我预计你会玩一个很大的数字——比如,90 到 99 范围内的数字。那么我不应该玩 99,因为无论你玩这些数字中的哪个数字,我选择 98 对我来说都会一样好或更好。但是,如果你和我一样了解无情的人类行为,并且遵循相同的逻辑,你也会将 99 从选择中划掉——并且通过那种使露西和皮特选择 2 的推理方式,我们很快就消除了 90 到 99 之间的每个数字。因此,不可能将“无情的人可能在逻辑上选择的大数字”集合定义明确,我们已经进入了将理性应用于固有的定义不明确的前提的哲学难题领域。
如果我要玩这个游戏,我会对自己说:“忘记博弈论逻辑。我会玩一个很大的数字(可能是 95),而且我知道我的对手会玩类似的东西,我们俩都会忽略下一个较小的数字会比我们选择的任何数字更好的理性论证。”有趣的是,这种对形式理性和逻辑的拒绝带有一种元理性的意味。如果双方玩家都遵循这种元理性路线,双方都会做得很好。通过理性地拒绝理性行为而产生的行为概念很难形式化。但其中蕴含着未来必须采取的步骤,以解决困扰博弈论并编入“旅行者的困境”中的理性悖论。
更多探索 关于扩展博弈的理性定义的不存在性。Kaushik Basu 发表于《国际博弈论杂志》,第 19 卷,第 33-44 页;1990 年。
旅行者的困境:博弈论中的理性悖论。Kaushik Basu 发表于《美国经济评论》,第 84 卷,第 2 期,第 391-395 页;1994 年 5 月。
旅行者的困境中的异常行为?C. Monica Capra 等人发表于《美国经济评论》,第 89 卷,第 3 期,第 678-690 页;1999 年 6 月。
逆向归纳法的逻辑。G. Priest 发表于《经济学与哲学》,第 16 卷,第 2 期,第 267-285 页;2000 年。
专家玩“旅行者的困境”。Tilman Becker 等人。工作论文 252,霍恩海姆大学经济研究所,2005 年。
本能和认知推理。Ariel Rubinstein。可在 arielrubinstein.tau.ac.il/papers/Response.pdf 获取