改编自《不可能原理:为什么巧合、奇迹和罕见事件每天都在发生》,作者:David J. Hand,经与 大众科学/Farrar, Straus and Giroux, LLC (北美), Transworld (英国), Ambo|Anthos (荷兰), C.H. Beck (德国), Companhia das Letras (巴西), Grupa Wydawnicza Foksal (波兰), Locus Publishing Co. (台湾), AST (俄罗斯) 安排出版。版权 © 2014 David J. Hand。
我称之为不可能原理的一套数学定律告诉我们,我们不应该对巧合感到惊讶。事实上,我们应该期望巧合发生。该原理的关键要素之一是大数定律。这条定律指出,给定足够的机会,我们应该期望一个特定的事件发生,无论它在每次机会中多么不可能发生。然而,有时,当机会真的很多时,看起来好像只有相对较少的机会。这种误解导致我们严重低估事件的概率:我们认为某件事极其不可能发生,但实际上它非常可能发生,甚至几乎是必然的。
在人们没有意识到存在大量机会的情况下,大量机会是如何发生的?组合定律,不可能原理的相关要素,指明了方向。它指出:相互作用的元素的组合数量随元素数量呈指数增长。“生日悖论”就是一个众所周知的例子。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
生日悖论提出了以下问题:一个房间里必须有多少人才能使其中两人拥有相同生日的可能性大于不可能?
答案是仅仅 23 人。如果房间里有 23 人或更多人,那么很可能其中两人将拥有相同的生日。
现在,如果您以前没有遇到过生日悖论,这可能会让您感到惊讶。二十三可能听起来太小了。也许您是这样推理的:任何其他特定的人与我生日相同的几率只有 365 分之一。因此,任何特定的人与我生日不同的几率是 364/365。如果房间里有 n 个人,其他 n − 1 个人每个人与我生日不同的概率为 364/365,那么所有 n − 1 个人与我生日不同的概率为 364/365 × 364/365 × 364/365 × 364/365 … × 364/365,其中 364/365 相乘 n − 1 次。如果 n 是 23,则结果为 0.94。
因为这是他们中没有人与我生日相同的概率,所以至少其中一人与我生日相同的概率仅仅是 1 − 0.94。(这可以通过推理得出,要么有人与我生日相同,要么没有人与我生日相同,因此这两个事件的概率之和必须为 1。)现在,1 − 0.94 = 0.06。这非常小。
然而,这是要考虑的错误计算,因为该概率——有人与您生日相同的概率——不是问题所问的内容。问题询问的是,同一个房间里的任何两个人彼此生日相同的概率。这包括其他人之一与您生日相同的概率,这是我上面计算的,但也包括其他两个人或更多人拥有相同的生日,但与您的生日不同的概率。
这就是组合发挥作用的地方。虽然可能与您生日相同的人只有 n − 1 人,但房间里总共有 n × (n − 1)/2 对人。当 n 变大时,这个人数对的数量迅速增长。当 n 等于 23 时,它是 253,比 n − 1 = 22 大 10 倍以上。也就是说,如果房间里有 23 人,则可能有 253 对人,但只有 22 对人包括您。
因此,让我们看一下房间里的 23 个人中没有人拥有相同生日的概率。对于两个人,第二个人与第一个人没有相同生日的概率是 364/365。然后,这两个人不同并且第三个人与他们中的任何一个都没有相同生日的概率是 364/365 × 363/365。同样,这三个人拥有不同生日并且第四个人与前三个人中的任何一个都没有相同生日的概率是 364/365 × 363/365 × 362/365。像这样继续下去,23 个人中没有人拥有相同生日的概率是 364/365 × 363/365 × 362/365 × 361/365 … × 343/365。
这等于 0.49。因为 23 个人中没有人拥有相同生日的概率是 0.49,所以他们中的一些人拥有相同生日的概率仅仅是 1 − 0.49,即 0.51,这大于一半。
彩票中奖
为了说明一个看似不可能的事件实际上相当可能的另一个例子,让我们看看彩票。在 2009 年 9 月 6 日,保加利亚彩票随机选择了 4、15、23、24、35、42 作为中奖号码。这些号码没有什么令人惊讶的。组成这些号码的数字都是低值——1、2、3、4 或 5——但这并非不寻常。此外,还有一个连续的数值对,23 和 24,尽管这种情况发生的频率远高于通常的认识(例如,如果您要求人们从 1 到 49 中随机选择六个数字,他们选择连续对的频率低于纯粹的偶然性)。
令人惊讶的是四天后发生的事情:9 月 10 日,保加利亚彩票随机选择了 4、15、23、24、35、42 作为中奖号码——与前一周的号码完全相同。该事件在当时引起了一场媒体风暴。“这是彩票 52 年历史上首次发生。我们对看到如此罕见的巧合感到非常震惊,但这确实发生了,”路透社 9 月 18 日的一篇文章援引一位女发言人的话说。保加利亚当时的体育部长斯维伦·内科夫下令进行调查。是否有可能发生了大规模欺诈?之前的号码是否被以某种方式复制了?
事实上,这个相当惊人的巧合只是不可能原理的另一个例子,以大数定律的形式,并通过组合定律放大。首先,世界各地进行了许多彩票。其次,它们年复一年地一次又一次发生。这迅速累积了大量彩票号码重复的机会。第三,组合定律开始生效:每次开出彩票结果时,它都可能包含与任何先前开奖中产生的号码相同的号码。一般来说,与生日情况一样,如果您运行彩票 n 次,则可能有 n × (n − 1)/2 对彩票开奖具有匹配的字符串号码。
2009 年号码重复的保加利亚彩票是六选 49 的彩票,因此任何特定六个号码组合出现的几率是 13,983,816 分之一。这意味着任何两个特定开奖匹配的几率是 13,983,816 分之一。但是,在三次开奖中某些两次开奖匹配的几率是多少?或者在 50 次开奖中某些两次开奖匹配的几率是多少?
三次开奖中可能有三对,但在 50 次开奖中可能有 1,225 对。组合定律正在发挥作用。如果我们进一步考虑,在 1,000 次开奖中,可能有 499,500 对。换句话说,如果我们将开奖次数乘以 20,从 50 次增加到 1,000 次,则对对数的影响要大得多,将其乘以近 408 倍,并从 1,225 对增加到 499,500 对。我们正在进入真正大数的领域。
需要多少次开奖才能使两次开出相同六个号码的概率大于二分之一——从而使该事件更有可能发生?使用我们在生日问题中使用的相同方法,得出的答案是 4,404。
如果每周进行两次开奖,一年进行 104 次,则此开奖次数将花费不到 43 年。这意味着在 43 年后,彩票机开出的一些六个号码组合很有可能完全匹配。这给保加利亚女发言人关于这是一个罕见巧合的评论赋予了相当不同的含义!
而这仅仅适用于一个彩票。当我们考虑到世界各地彩票的数量时,我们就会明白,如果开奖结果偶尔不重复,那才令人惊讶。因此,您不会惊讶地得知,在以色列的 Mifal HaPayis 国家彩票中,2010 年 10 月 16 日开出的号码——13、14、26、32、33、36——与几周前的 9 月 21 日开出的号码完全相同。您不会惊讶地得知这一点,但大批民众涌入以色列的谈话电台节目,抱怨彩票被操纵了。
保加利亚彩票结果不同寻常之处在于重复的号码组合出现在连续的开奖中。但是,大数定律,加上世界各地定期开出号码的彩票数量众多这一事实,意味着我们不应过于惊讶——因此,我们不应惊讶地听到这种情况以前发生过。例如,北卡罗来纳州 Cash 5 彩票在 2007 年 7 月 9 日和 11 日开出了相同的中奖号码。
组合定律可能产生彩票匹配的另一种相当令人沮丧的方式由 1980 年莫琳·威尔科克斯的遭遇来说明。她购买了马萨诸塞州彩票和罗德岛彩票的中奖号码的彩票。然而,对她来说不幸的是,她为马萨诸塞州彩票购买的彩票持有罗德岛彩票的中奖号码,反之亦然。如果您购买 10 张彩票的彩票,您有 10 次中奖机会。但 10 张彩票意味着 45 对彩票,因此 10 张彩票中的一张与 10 次彩票开奖中的一次匹配的机会是您中奖机会的四倍多。由于显而易见的原因,这不是获得巨额财富的秘诀,因为将一张彩票与另一张彩票的开奖结果匹配并不能让您赢得任何东西——除了怀疑宇宙在嘲笑您。
当有许多相互作用的人或物体时,组合定律适用。例如,假设我们有一个 30 名学生的班级。他们可以通过各种方式互动。他们可以作为个人工作:他们有 30 个人;他们可以两人一组工作——有 435 种不同的两人组合;他们可以三人一组工作——有 4,060 种可能不同的三人组合;等等,一直到,当然,他们所有人一起工作——有一组所有 30 名学生一起工作。
总共有 1,073,741,823 种可能形成的不同学生组。超过十亿,全部来自 30 名学生。一般来说,如果一个集合有 n 个元素,则可以形成 2n − 1 个可能的子集。如果 n = 100,则结果为 2100 − 1,大约等于 1030,对于任何人来说都是一个真正庞大的数字。
但是,如果即使 1030 对您来说还不够大,请考虑万维网的含义,它拥有大约 25 亿用户,他们中的任何一个都可以与任何其他人互动。这产生了 3 × 1018 对,以及 10750,000,000 个可能的互动成员组。如果给事件那么多发生的机会,即使概率非常小的事件也几乎变得肯定。
下次您遇到看似奇怪的巧合时,请想想不可能原理。
*编者注(2/10/14):本文已重新发布。最初的发布由于技术错误导致上标格式丢失,因此包含不正确的信息。