概率可能并不存在

所有的统计学和大部分科学都依赖于概率——考虑到没有人真正确定它是什么,这是一项惊人的成就

3 dice two with #6 face

Gail Shotlander/Getty Images

生活充满了不确定性。我们没有人知道将会发生什么。对于过去发生的事情,或者现在在我们直接经验之外正在发生的事情,我们知之甚少。不确定性被称为“对无知的有意识的觉察”——无论是明天的天气、下一届英超冠军、2100年的气候,还是我们远古祖先的身份。

在日常生活中,我们通常用语言表达不确定性,说一个事件“可能”、“也许”或“很可能”会发生(或已经发生)。但是不确定的词语可能是靠不住的。1961年,新当选的美国总统约翰·F·肯尼迪被告知一项中央情报局资助的入侵共产主义古巴的计划时,他委托他的军事高级将领进行评估。他们的结论是,这项任务有30%的成功机会——也就是说,有70%的失败机会。在提交给总统的报告中,这被表述为“机会尚可”。猪湾入侵按计划进行,结果却是一场惨败。现在已经有成熟的量表可以将不确定性的词语转换为粗略的数字。例如,英国情报界任何使用“很可能”一词的人,都应该意味着机会在55%到75%之间(参见go.nature.com/3vhu5zc)。

试图用数字来衡量机会和不确定性,将我们带入了概率的数学领域,今天概率被自信地应用于许多领域。例如,打开任何科学期刊,你会发现论文中 liberally sprinkled with P 值、置信区间,可能还有贝叶斯后验分布,所有这些都依赖于概率。


支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。


然而,我将论证,任何数值概率——无论是在科学论文中,还是作为天气预报的一部分,预测体育比赛的结果,或量化健康风险——都不是世界的客观属性,而是一种基于个人或集体判断以及(通常是可疑的)假设的构建。此外,在大多数情况下,它甚至不是在估计某些潜在的“真实”量。实际上,概率很少能说是“存在”的。

偶然闯入者

概率是数学领域相对较晚的来者。尽管人们使用 astragali(踝骨)和骰子赌博已经有数千年的历史,但直到17世纪50年代法国数学家布莱兹·帕斯卡和皮埃尔·德·费马开始通信,才对“偶然”事件进行了严格的分析。就像从蓄势待发的堤坝中释放出来一样,概率从此涌入金融、天文学和法律等各个领域——更不用说赌博了。

为了掌握概率的滑溜性,请考虑现代天气预报中如何使用这个概念。气象学家会预测温度、风速和降雨量,通常还会预测降雨概率——例如,在给定的时间和地点降雨概率为70%。前三项可以与其“真实”值进行比较;你可以出去测量它们。但是没有“真实”的概率可以与预报员的评估进行比较。没有“概率计”。要么下雨,要么不下雨。

更重要的是,正如哲学家伊恩·哈金强调的那样,概率是“ Janus-faced ”:它既处理机会,也处理无知。想象一下我抛一枚硬币,问你它正面朝上的概率是多少。你欣然地说“50-50”,或“一半”,或其他变体。然后我抛了硬币,快速偷看了一下,但把它盖住了,然后问:你现在认为它是正面的概率是多少?

请注意,我说的是“你的”概率,而不是“这个”概率。大多数人现在犹豫不决地给出答案,然后勉强重复“50-50”。但是事件已经发生了,不再有随机性了——只有你的无知。情况已经从关于我们无法知道的未来的“偶然性”不确定性,转变为关于我们目前不知道的“认知性”不确定性。数值概率用于这两种情况。

这里还有另一个教训。即使对于应该发生的事情有一个统计模型,这也总是基于主观假设——在抛硬币的情况下,假设有两个同样可能的结果。为了向听众演示这一点,我有时会使用一枚两面都是正面的硬币,表明即使他们最初“50-50”的意见也是基于对我的信任。这可能很草率。

主观性和科学

我的论点是,任何概率的实际应用都涉及主观判断。这并不意味着我可以随意对我自己的想法加上数字——如果我声称有99.9%的把握我可以从屋顶上飞下来,我就会被证明是一个糟糕的概率评估者。当概率及其基本假设与现实进行检验时,客观世界就会发挥作用(参见“我有多无知?”);但这并不意味着概率本身是客观的。

人们用来评估概率的一些假设将比其他假设具有更强的理由。如果我在抛掷硬币之前仔细检查过它,并且它落在坚硬的表面上并混乱地弹跳,那么我会比某个可疑的人掏出一枚硬币并随意翻转几下,更觉得我的 50-50 判断是合理的。但是,这些相同的限制适用于任何使用概率的地方——包括在科学背景下,在科学背景下,我们可能更容易相信其所谓的客观性。

这是一个真正的科学和公共重要性的例子。在 COVID-19 大流行开始后不久,RECOVERY 试验开始在英国住院患者中测试疗法。在一项实验中,超过 6,000 人被随机分配接受他们在医院接受的标准护理,或该护理加上地塞米松(一种廉价的类固醇)的剂量。在那些接受机械通气的患者中,与仅接受标准护理的组相比,分配到地塞米松组的年龄调整后的每日死亡风险降低了 29%(95% 置信区间为 19-49%)。P 值——在假设风险没有潜在差异的零假设下,观察到如此极端相对风险的计算概率——可以计算为 0.0001,即 0.01%。

这都是标准分析。但是,精确的置信水平和 P 值不仅仅依赖于假设零假设。它还取决于统计模型中的所有假设,例如观测值是独立的:即,没有因素导致在空间和时间上更密切接受治疗的人具有更相似的结果。但是,存在许多此类因素,无论是人们接受治疗的医院还是不断变化的护理方案。精确值还取决于每个组中的所有参与者都具有相同的潜在 28 天生存概率。这会因各种原因而异。

这些错误的假设都不一定意味着分析存在缺陷。在这种情况下,信号非常强烈,以至于允许潜在风险在参与者之间变化的模型对总体结论几乎没有影响。但是,如果结果更边缘化,则应适当对模型对替代假设的敏感性进行广泛分析。

为了实践广为引用的格言,“所有模型都是错误的,但有些是有用的”。地塞米松分析特别有用,因为其坚定的结论改变了临床实践,并挽救了数十万人的生命。但是,结论所依据的概率不是“真实的”——它们是主观的,如果合理的话,假设和判断的产物。

深入兔子洞

那么,这些数字是我们对某些潜在“真实”概率(世界的客观特征)的主观的、可能存在缺陷的估计吗?

我在此处补充说明,我不是在谈论量子世界。在亚原子层面,数学表明,无因事件可能以固定的概率发生(尽管至少有一种解释表明,即使是这些概率也表达了与其他物体或观察者的关系,而不是量子物体固有的属性)。但同样,似乎这对宏观世界中日常可观察到的事件几乎没有影响。

我还可以避免关于非量子世界本质上是否是确定性的,以及我们是否拥有自由意志来影响事件进程的几个世纪以来的争论。无论答案如何,我们仍然需要定义客观概率实际上是什么。

多年来,人们已经做出了许多尝试来做到这一点,但它们似乎要么有缺陷,要么有限。其中包括频率主义概率,这种方法定义了在本质上相同的无限多次重复情况下会看到的事件的理论比例——例如,在相同人群和相同条件下一次又一次地重复相同的临床试验,就像《土拨鼠日》一样。这似乎相当不现实。英国统计学家罗纳德·费舍尔建议将唯一的数据集视为来自假设无限总体的样本,但这似乎更像是一个思想实验,而不是客观现实。或者,还有倾向的半神秘思想,即在特定背景下,例如我在未来十年内心脏病发作,存在特定事件发生的某种真实潜在趋势。这似乎实际上无法验证。

在有限范围的良好控制、可重复的情况下,复杂性如此之高,以至于即使它们本质上是确定性的,也通过在长期内具有可预测属性的概率分布来符合频率主义范式。这些包括标准随机化设备,例如轮盘赌轮、洗过的扑克牌、旋转的硬币、掷骰子和彩票球,以及伪随机数生成器,它们依赖于非线性、混沌算法来给出通过随机性测试的数字。

在自然界中,我们可以加入大量气体分子的运作,即使它们遵循牛顿物理学,也服从统计力学的定律;以及遗传学,其中染色体选择和重组的巨大复杂性产生了稳定的遗传率。在这些有限的情况下,假设伪客观概率——“这个”概率,而不是“一个”(主观)概率可能是合理的。

然而,在其他所有使用概率的情况下——从广泛的科学领域到体育、经济学、天气、气候、风险分析、灾难模型等等——将我们的判断视为对“真实”概率的估计是没有意义的。这些只是我们可以尝试根据我们的知识和判断,用概率来表达我们个人或集体的不确定性的情况。

判断事项

这一切只会引发更多问题。我们如何定义主观概率?如果概率定律基于我们基本上编造的东西,为什么它们是合理的?这在学术文献中已经讨论了近一个世纪,同样没有普遍认可的结果。

最早的尝试之一是由英国剑桥大学的数学家弗兰克·拉姆齐在 1926 年做出的。他是我历史上最想见到的人。他是一位天才,他在概率、数学和经济学方面的工作至今仍被认为是基础性的。他只在上午工作,将下班后的时间献给妻子和情人,打网球,喝酒,参加热闹的派对,同时“像河马一样”大笑(他是个大块头,体重达 108 公斤)。他于 1930 年去世,年仅 26 岁,据他的传记作者谢丽尔·米萨克说,可能是因为在剑河游泳后感染了钩端螺旋体病。

拉姆齐表明,所有的概率定律都可以从对特定赌博的表达偏好中推导出来。结果被赋予效用,而赌博某事的价值由其预期效用概括,预期效用本身受表达部分信念的主观数字支配——即,我们的个人概率。然而,这种解释确实需要对这些效用值进行额外规范。最近,研究表明,概率定律可以通过简单地以最大化您在使用适当评分规则时的预期表现的方式行事来推导出来,例如测验“我有多无知?”中所示的评分规则。

尝试定义概率通常相当模棱两可。例如,艾伦·图灵在他的 1941-2 年的论文《概率在密码学中的应用》中,使用了工作定义,即“在某些证据下,事件发生的概率是在给定证据的情况下,该事件可能发生的案例比例”。这承认实际概率将基于期望——人类判断。但是,图灵所说的“案例”是指相同观察的实例,还是相同判断的实例?

后者与客观概率的频率主义定义有一些共同之处,只是重复的相似观察类别被重复的相似主观判断类别所取代。在这种观点中,如果降雨概率被判断为 70%,则将其置于预报员分配 70% 概率的场合集合中。事件本身预计在 70% 的此类场合中发生。这可能是我最喜欢的定义。但是,概率的模糊性得到了鲜明的证明,因为在将近四个世纪之后,仍然有许多人不会同意我的观点。

实用方法

当我在 1970 年代还是学生时,我的导师、统计学家 Adrian Smith 正在翻译意大利精算师布鲁诺·德·菲内蒂的《概率论》。德·菲内蒂与拉姆齐大约在同一时间,但完全独立地发展了主观概率的思想。(他们的性格截然不同:与拉姆齐坚定的社会主义相反,德·菲内蒂年轻时是意大利独裁者贝尼托·墨索里尼风格的法西斯主义的热情支持者,尽管他后来改变了主意。)那本书以挑衅性的声明开头:“概率不存在”,这个想法在过去 50 年中对我的思想产生了深刻的影响。

然而,在实践中,我们或许不必决定客观的“机会”是否真的存在于日常的非量子世界中。相反,我们可以采取务实的方法。颇具讽刺意味的是,德·菲内蒂本人在他 1931 年关于“可交换性”的工作中为这种方法提供了最有说服力的论据,这项工作产生了一个以他的名字命名的著名定理。如果我们对每个序列的主观概率不受我们的观察顺序的影响,则一系列事件被判断为可交换的。德·菲内蒂出色地证明,这个假设在数学上等同于假设事件是独立的,每个事件都具有一些真实的潜在“机会”发生,并且我们对未知机会的不确定性通过主观的、认知的概率分布来表达。这非常了不起:它表明,从特定但纯粹主观的信念表达开始,我们应该表现得好像事件是由客观机会驱动的。

令人惊叹的是,如此重要的工作体系,是所有统计科学和许多其他科学和经济活动的基础,竟然来自如此难以捉摸的想法。因此,我将用我自己的格言来总结。在我们的日常世界中,概率可能并不存在——但像它存在一样行动通常是有用的。

本文经许可转载,最初于 2024 年 12 月 16 日首次发表

© . All rights reserved.