当手稿摆在他面前时,宾夕法尼亚大学的理论生物学家约书亚·普洛特金立刻被它吸引住了。物理学家弗里曼·戴森和计算机科学家威廉·普雷斯都是各自领域的高成就者,他们为一个著名的、存在了几十年的博弈论场景找到了一个新的解决方案,这个场景被称为囚徒困境,在这个场景中,玩家必须决定是欺骗还是与伙伴合作。长期以来,囚徒困境一直被用来帮助解释合作如何在自然界中持续存在。毕竟,自然选择是由适者生存的规律支配的,因此人们可能会认为,有利于个体的自私策略最有可能持续存在。但是,对囚徒困境的仔细研究表明,生物体可以完全按照自己的利益行事,仍然可以创建一个合作的社区。
然而,普雷斯和戴森对该问题的新解决方案使这种乐观的观点受到质疑。它表明,最好的策略是导致敲诈而不是合作的自私策略。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。
普洛特金发现这两人的数学方法非常优雅。但是结果让他很困扰。自然界中有很多合作行为的例子。例如,吸血蝙蝠会将一些血餐捐赠给找不到猎物的社区成员。一些鸟类和社会性昆虫会例行公事地帮助抚养其他人的幼崽。甚至细菌也可以合作,互相粘附在一起,以便一些细菌能够抵抗毒药。如果敲诈盛行,是什么驱动了这些和其他无私的行为?
普雷斯和戴森的论文着眼于一个经典的博弈论场景——一对玩家进行重复的对抗。普洛特金想知道,如果将相同的数学方法应用于更接近自然的情况,是否可以恢复慷慨。因此,他以群体形式重新审视了他们的方法,允许个体与群体中的每个其他成员进行一系列游戏。他的实验结果,最近的一次实验结果在12月发表于美国国家科学院院刊上,表明慷慨和自私是一线之隔。在某些情况下,合作会取得胜利。但是,只要稍微改变一个变量,敲诈就会再次占据上风。普洛特金说:“现在,我们对合作在群体中何时应该进化,或者不应该进化,有了一个非常普遍的解释。”他与他的同事亚历山大·斯图尔特一起进行了这项研究。
这项工作目前完全是理论性的。但是这些发现可能具有广泛的影响,可以解释从复杂生物体之间的合作到多细胞性的进化(单个细胞之间的一种合作形式)等现象。
普洛特金和其他人表示,普雷斯和戴森的工作可以为使用博弈论研究合作的进化提供一个新的框架,使研究人员能够梳理出允许合作存在的参数。“它基本上使这个领域复苏了,”哈佛大学的生物学家和数学家马丁·诺瓦克说。
以牙还牙
绿猴以其警报声而闻名。当附近有掠食者时,猴子会尖叫以警告它的邻居。但是这样做,它会引起人们对自己危险的注意。追溯到达尔文的科学家一直在努力解释这种利他行为是如何进化的。如果被捕食者杀死的那部分尖叫的猴子比例足够高,自然选择应该会在基因库中消除尖叫者。然而事实并非如此,关于原因的猜测导致了数十年的(有时是激烈的)辩论。
研究人员提出了不同的可能机制来解释合作。亲缘选择表明,帮助家庭成员最终会帮助个体。群体选择认为,合作的群体比不合作的群体更有可能生存下来。直接互惠则认为,个人会从帮助过去帮助过他们的人中获益。
囚徒困境帮助研究人员了解简单的策略,例如与慷慨的社区成员合作以及欺骗作弊者,这些策略可以在适当的条件下创建合作社会。首次在 1950 年代描述的经典囚徒困境涉及一对被捕并被安置在单独房间里的重罪犯。每个人都有一个选择:坦白或保持沉默。在最佳结果中,两人都什么也不说并获得自由。但是由于没有人知道对方会怎么做,保持沉默是有风险的。如果一方告密而另一方保持沉默,告密者会受到较轻的处罚,而保持沉默的同伙则会遭受苦难。
即使是简单的生物,例如微生物,也会参与这些类型的游戏。一些海洋微生物会产生帮助它们收集铁(一种重要的营养素)的分子。微生物菌落通常既有生产者也有作弊者——不自己制造化合物但利用邻居分子的微生物。
在囚徒困境的单次实例中,最佳策略是背叛——向你的同伙告发,你将获得更少的时间。但是,如果游戏重复进行,则最佳策略会发生变化。在单次遭遇中,一只发现掠食者的绿猴如果保持沉默会更安全。但是,在一生中,如果猴子警告邻居即将发生的危险,而邻居也这样做,那么猴子更有可能生存下来。普洛特金说:“每个玩家都有背叛的动机,但总的来说,如果他们合作,他们会做得更好。”“这是合作如何出现的经典问题。”
在1970年代,密歇根大学的政治科学家罗伯特·阿克塞尔罗德发起了一场循环赛,让不同的策略相互对抗。令许多参赛者惊讶的是,最简单的方法赢了。简单地模仿另一位玩家之前的举动(一种称为以牙还牙的策略)胜过了许多更复杂的程序。
在整个生物世界中都可以找到以牙还牙的策略。例如,刺鱼成对地以一种以牙还牙二重奏的形式侦察附近的掠食者。如果一条鱼冒险地向前冲,另一条鱼会以类似勇敢的行为作为回报。如果一条鱼退缩,希望让它的同伴承担风险,那么同伴也会退缩。
在过去的30年中,科学家们探索了比阿克塞尔罗德的简单版本更符合进化现实的囚徒困境版本。大型循环赛中的玩家从一套不同的策略开始——将此视为他们基因决定的适应度。为了模仿适者生存,每次互动的获胜者会生育更多的后代,这些后代会继承与其父母相同的策略。因此,最成功的策略会随着时间的推移而越来越受欢迎。
获胜方法取决于多种因素,包括群体的大小,开始时存在的策略以及玩家犯错的频率。实际上,向游戏中添加噪声(策略的随机变化,作为基因突变的替代)会结束以牙还牙的统治。在这种情况下,一种称为慷慨以牙还牙的变体(偶尔原谅他人的背叛)会取得胜利。
这些模拟的总体风味是乐观的——善良会得到回报。诺瓦克说:“最成功的策略通常是那些不试图利用他人的人。”
普雷斯和戴森带着黑暗的绝望出现了。
普雷斯和戴森概述了一种方法,称为敲诈,其中一个玩家可以通过选择按照规定的概率背叛来始终获胜。普雷斯和戴森的策略的显著之处在于,它允许一个玩家控制游戏的结果。哈佛大学诺瓦克小组的研究员克里斯蒂安·希尔贝说:“主要的创新之处在于计算出您可以多久背叛一次,而不会完全使您的同伴失去动力。”此外,获胜的玩家只需要记住先前的行动即可,但是该策略与合并了许多先前游戏回合的策略一样有效。
第二个玩家被迫与敲诈者合作,因为这是提供最佳回报的选择。普洛特金说:“如果我是敲诈者,即使我们合作,我也会偶尔背叛,其比例恰好足够,无论你做什么,我的回报都会比你高。”这种情况让人想起初中小组项目。如果团队中的一名成员偷懒,那么尽职尽责的学生别无选择,只能更加努力地工作以获得好成绩。
普雷斯和戴森的原始论文设定在经典的博弈论背景下——两个玩家之间的一系列互动。但是普洛特金和斯图尔特想知道,如果他们将相同的数学方法应用于不断发展的群体(例如绿猴或吸血蝙蝠),而这些群体的繁殖和生存是基于其个体适应性,会发生什么情况。他们探索了更广泛的成功策略,称为零行列式策略,这是普雷斯和戴森已经确定的。
这类策略包括与敲诈在道德上相反的策略:慷慨。通常,采用慷慨策略的玩家始终会在对手这样做时进行合作。如果对手背叛,第一位玩家仍将以一定的概率进行合作,以试图哄骗对手回到慷慨。
令普洛特金和斯图尔特感到欣慰的是,当应用于不断发展的群体时,慷慨的策略而不是敲诈的策略最为成功。普洛特金说:“我们发现了一个更加乐观的景象。”他在2013年将结果发表在美国国家科学院院刊上。“最强大的策略,即无法被其他策略取代的策略,是慷慨的策略。”
基本的直觉很简单。普洛特金说:“敲诈与一个对手相处得很好。”“但是在庞大的人口中,敲诈者最终会与另一个敲诈者配对。”然后两者都将背叛,从而获得较差的回报。“普洛特金通过颠倒我们的模型来改进了我们的模型,”戴森说。“如果你想让某人与你合作,最好用短期利益来贿赂这个人,而不是立即惩罚他。”
希尔贝在现实世界中证实了这些发现,他让人类玩家与使用慷慨或敲诈策略的计算机进行对抗。正如预测的那样,与自私的计算机相比,人们在与慷慨的计算机对战时赢得了更大的收益。但是人们也倾向于惩罚敲诈的对手,即使这样做符合他们的最佳利益,他们也拒绝合作。反过来,这减少了人类玩家和计算机的回报。最后,慷慨的计算机比敲诈的计算机赢得了更大的收益。
敲诈者的复仇
鉴于这些结果,普洛特金希望敲诈者能够被阻止。但是这种乐观情绪是短暂的。在 2013 年的研究之后,普洛特金更改了通过合作或背叛可以获得的收益。玩家将其策略和战略收益传递给其后代;这两个量都可能遭受随机突变。
随着系统发生这种剧变(可能对应于环境条件的变化),结果又回到了黑暗面。慷慨不再是受青睐的解决方案。“随着增加背叛诱惑的突变席卷整个群体,种群达到了一个临界点,”普洛特金说。“背叛的诱惑是压倒性的,背叛主宰了一切。”
普洛特金说,这个结果出乎意料。“令人惊讶的是,它是在同一框架——博弈论——中发生的,人们曾经用它来解释合作,”他说。“我以为即使你允许游戏进化,合作仍然会占上风。”
关键在于,对条件的微小调整可能会对合作或敲诈是否会胜出产生重大影响。“看到这导致了性质截然不同的结果,真是太棒了,”麻省理工学院的生物物理学家杰夫·戈尔说,他没有参与这项研究。“根据约束条件的不同,你可以进化出性质截然不同的游戏。”
密歇根州立大学的计算生物学家克里斯·阿达米认为,没有所谓的最佳策略——赢家取决于条件。
的确,普洛特金的研究不太可能是故事的结局。“我确信会有人研究结果如何依赖于假设,”希尔贝说。“也许合作可以以某种方式被拯救。”
囚徒的未来
囚徒困境显然是真实互动的简化版本。
那么,它对于研究合作的演变来说是一个好的模型吗?戴森并不乐观。他喜欢普洛特金和希尔贝的研究,主要是因为它们涉及有趣的数学。“当然,作为对可能世界的描述,它非常有趣,但在我看来,它看起来不像生物学的世界,”戴森说。
伊桑·阿金是一位数学家,他探索了类似于普雷斯和戴森的策略,他说他认为这些结果更适用于社会学的决策,而不是合作的演变。
但是一些实验生物学家不同意,他们说,囚徒困境和更广泛的博弈论对他们的领域产生了深远的影响。“我认为博弈论对微生物合作的贡献是巨大的,”佐治亚理工学院的进化生物学家威尔·拉特克利夫说。
例如,研究抗生素耐药性的科学家正在使用一种名为雪堆博弈的博弈论场景,在这种场景中,玩家总是会从合作中获益。(如果你在暴风雪后被困在公寓楼里,铲除车道会让你受益,但住在那里但不铲雪的其他人也会受益。)一些细菌可以产生并分泌一种能够灭活抗生素药物的酶。产生这种酶的成本很高,而不产生这种酶的懒惰细菌可以通过利用它们更勤劳的邻居产生的酶来获益。在严格的囚徒困境场景中,偷懒者最终会杀死生产者,从而损害整个种群。但在雪堆博弈中,生产者更容易获得这种酶,从而提高它们的适应性,并且这两种类型的细菌可以共存。
实验室中的微生物可以模拟博弈论场景,但是这些受控环境是否准确反映了自然界中发生的事情则是另一回事。“我们通过假设某种生态来设定游戏的动态,”拉特克利夫说。但这些参数可能无法反映微生物的正常栖息地。“要证明实验的动态符合囚徒困境或其他游戏,并不一定意味着这些机制在自然界中驱动它们,”拉特克利夫说。
在迭代囚徒困境中,两个玩家在一系列回合中相互竞争。然后,研究人员可以确定哪种策略在长期内最成功。下面,左列中的玩家采用慷慨的策略,试图通过有时在对手背叛时仍然提供帮助来引诱对手帮助。右边的自私玩家倾向于背叛,只在足以防止其对手永久背叛时才提供帮助。每轮的得分使用类似于上面蝙蝠例子的矩阵进行计算
在正面交锋中,自私的策略击败了慷慨的策略。然而,当相同的策略应用于更符合进化现实的设置时,结果会有所不同。在下面的视频中,一群玩家进行一系列正面交锋,很像循环赛。在每次交锋中“获胜”的玩家会产生更多采用类似策略的后代。在这里,一个采用慷慨策略的玩家会倾向于将其策略传播到整个种群中
最终,整个种群从自私的策略转变为慷慨的策略。生物学家使用这样的模型来解释合作行为如何在野外持续存在。
经 Quanta Magazine 许可转载,Quanta Magazine 是 SimonsFoundation.org 的一个编辑独立部门,其使命是通过报道数学以及物理和生命科学领域的研究进展和趋势来增进公众对科学的理解。