本文最初发表于《大众科学》的前博客网络,仅反映作者的观点,不一定代表《大众科学》的观点
我不确定我第一次听说贝叶斯定理是什么时候。但在过去十年里,我才真正开始关注它,此前我的一些对理论着迷的学生将其吹捧为几乎是指导人生的神奇指南。
我的学生的夸夸其谈让我感到困惑,维基百科和其他地方对该定理的解释也让我感到困惑,我发现这些解释要么过于简化,要么过于复杂。我自作主张地认为贝叶斯只是一时的潮流,不值得深入研究。但现在,贝叶斯热潮已经变得过于普遍,不容忽视。
据《纽约时报》报道,贝叶斯统计学“正在各个领域蔓延,从物理学到癌症研究,从生态学到心理学”。物理学家提出了量子力学的贝叶斯解释和贝叶斯对弦理论和多元宇宙理论的辩护。哲学家们断言,整个科学可以被视为一个贝叶斯过程,并且贝叶斯可以比卡尔·波普尔推广的证伪方法更精确地区分科学与伪科学。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们今天世界的发现和想法的有影响力的故事的未来。
包括谷歌的自动驾驶汽车设计师在内的人工智能研究人员,使用贝叶斯软件来帮助机器识别模式和做出决策。据贝叶斯定理的畅销书历史的作者莎伦·伯特施·麦克格雷恩称,贝叶斯程序“可以从电子邮件中筛选垃圾邮件,评估医疗和国土安全风险,并解码DNA等等”。在Edge.org网站上,物理学家约翰·马瑟担心贝叶斯机器可能会非常智能,以至于它们使人类“过时”。
认知科学家推测,我们的大脑在感知、思考和决策时,会融入贝叶斯算法。11月,科学家和哲学家在纽约大学举行的题为“大脑是贝叶斯式的吗?”的会议上探讨了这种可能性。(我在Bloggingheads.tv上讨论了这次会议,并在后续帖子“大脑是贝叶斯式的吗?”中进行了讨论。)
狂热分子坚持认为,如果我们更多人采纳有意识的贝叶斯推理(而不是我们大脑据称使用的无意识贝叶斯处理),世界将会变得更美好。在《贝叶斯定理的直观解释》中,人工智能理论家埃利泽·尤德科夫斯基(我曾经在Bloggingheads.tv上与他讨论过奇点)承认了贝叶斯主义者的狂热
“为什么一个数学概念会在它的学生中产生这种奇怪的热情?什么是所谓的贝叶斯革命,它现在正席卷科学界,声称甚至将实验方法本身也归为特例?贝叶斯信徒们知道的秘密是什么?他们看到的光是什么?很快你就会知道。很快你就会成为我们中的一员。”尤德科夫斯基是在开玩笑。还是认真的?
鉴于所有这些喧嚣,我试图一劳永逸地弄清楚贝叶斯到底是什么。在网络上无数的解释中,我发现特别有帮助的包括尤德科夫斯基的文章、维基百科的条目以及哲学家柯蒂斯·布朗和计算机科学家奥斯卡·博尼利亚和卡利德·阿扎德的较短文章。在这篇文章中,我将尝试解释——主要是为了我自己的利益——贝叶斯到底是怎么回事。我相信善良的读者会像往常一样指出任何错误。*
贝叶斯定理以其发明者,18世纪的长老会牧师托马斯·贝叶斯的名字命名,它是一种根据最佳可用证据(观察、数据、信息)计算信念(假设、主张、命题)有效性的方法。以下是最简化的描述:初始信念加上新证据 = 新的、改进的信念。
以下是一个更完整的版本:在给定新证据的情况下,一个信念为真的概率等于该信念无论是否有该证据都为真的概率,乘以该证据在信念为真的情况下为真的概率,再除以该证据无论该信念是否为真都为真的概率。明白了吗?
基本的数学公式采用以下形式:P(B|E) = P(B) X P(E|B) / P(E),其中P代表概率,B代表信念,E代表证据。P(B)是B为真的概率,P(E)是E为真的概率。P(B|E)表示如果E为真,则B的概率,P(E|B)表示如果B为真,则E的概率。
医学测试通常用于演示该公式。假设您接受了癌症测试,据估计这种癌症在您这个年龄段的人群中发生率为百分之一。如果测试是100%可靠的,您不需要贝叶斯定理就知道阳性测试意味着什么,但让我们无论如何都使用该定理,只是为了看看它是如何工作的。
为了求解P(B|E),您将数据代入贝叶斯方程的右侧。P(B),即您在接受测试之前患癌症的概率,是百分之一,即0.01。P(E),即您将测试呈阳性的概率也是如此。因为它们分别在分子和分母中,所以它们相互抵消,您剩下的是P(B|E) = P(E|B) = 1。如果您测试呈阳性,您肯定患有癌症,反之亦然。
在现实世界中,测试很少甚至永远不会完全可靠。因此,假设您的测试可靠性为99%。也就是说,100个患有癌症的人中有99个测试呈阳性,100个健康的人中有99个测试呈阴性。这仍然是一个非常棒的测试。如果您的测试呈阳性,那么您患癌症的可能性有多大?
现在,贝叶斯定理显示了它的威力。大多数人认为答案是99%,或接近99%。测试的可靠性就是这样,对吧?但贝叶斯定理给出的正确答案仅为50%。
将数据代入贝叶斯方程的右侧,找出原因。P(B)仍然是0.01。P(E|B),即如果您患有癌症,测试呈阳性的概率,现在是0.99。因此,P(B)乘以P(E|B)等于0.01乘以0.99,即0.0099。这是您将获得真阳性测试的概率,表明您患有癌症。
分母P(E)呢?这是事情变得棘手的地方。P(E)是无论您是否患有癌症,测试呈阳性的概率。换句话说,它包括假阳性和真阳性。
为了计算假阳性的概率,您将假阳性率(即百分之一,或0.01)乘以未患癌症的人的百分比0.99。总数达到0.0099。是的,您非常棒的、准确率99%的测试产生的假阳性与真阳性一样多。
让我们完成计算。为了得到P(E),将真阳性和假阳性相加,总共得到0.0198,将其除以0.0099,得到0.5。因此,再一次,P(B|E),即如果您测试呈阳性,您患癌症的概率为50%。
如果您再次接受测试,您可以大大降低您的不确定性,因为您患癌症的概率P(B)现在是50%,而不是1%。如果您的第二次测试也呈阳性,贝叶斯定理告诉您,您患癌症的概率现在是99%,即0.99。正如这个例子所示,迭代贝叶斯定理可以产生极其精确的信息。
但是,如果您的测试可靠性为90%,这仍然相当不错,那么即使您两次测试呈阳性,您实际患癌症的机会仍然不到50%。(用这篇博文中的便捷计算器检查我的数学。)
包括医生在内的大多数人,都很难理解这些概率,这有助于解释为什么我们对癌症和其他疾病过度诊断和过度治疗。这个例子表明,贝叶斯主义者是对的:如果更多人——或者至少更多的医疗保健消费者和提供者——采用贝叶斯推理,世界确实会变得更美好。
另一方面,贝叶斯定理只是常识的编纂。正如尤德科夫斯基在他的教程结尾写道:“到目前为止,贝叶斯定理可能看起来非常明显,甚至是同义反复,而不是令人兴奋和新颖。如果是这样,那么这个介绍就完全成功地达到了它的目的。”
考虑癌症检测案例:贝叶斯定理说,如果您测试呈阳性,您患癌症的概率是真阳性测试的概率除以所有阳性测试(假阳性和真阳性)的概率。简而言之,警惕假阳性。
以下是我对该原则的更一般性陈述:您的信念的合理性取决于您的信念——并且仅取决于您的信念——在多大程度上解释了支持它的证据。对证据的替代解释越多,您的信念就越不合理。对我而言,这就是贝叶斯定理的本质。
“替代解释”可以涵盖很多内容。您的证据可能是错误的,被故障仪器、错误分析、确认偏差甚至欺诈所扭曲。您的证据可能是合理的,但可以用许多信念或假设来解释,而不是您的信念或假设。
换句话说,贝叶斯定理没有什么神奇之处。它归结为您的信念的有效性仅取决于其证据的真理。如果您有好的证据,贝叶斯定理可以产生好的结果。如果您的证据很薄弱,贝叶斯定理就没什么用处。“垃圾进,垃圾出”。
贝叶斯滥用的可能性始于P(B),即您对信念概率的初始估计,通常称为“先验”。在上面的癌症测试示例中,我们得到了一个很好的、精确的先验,即癌症患病率为百分之一,或0.01。在现实世界中,专家们对如何诊断和计算癌症存在分歧。您的先验通常由一系列概率而不是单个数字组成。
在许多情况下,估计先验只是猜测,允许主观因素渗入您的计算。您可能在猜测一些甚至不存在的事物的概率——不像癌症那样——例如弦、多元宇宙、暴胀或上帝。然后您可能会引用可疑的证据来支持您可疑的信念。通过这种方式,贝叶斯定理可以促进伪科学和迷信,以及理性。
贝叶斯定理中蕴含着一个道德信息:如果您不认真寻求对您的证据的替代解释,那么证据只会证实您已经相信的东西。科学家们经常没有注意到这条格言,这有助于解释为什么如此多的科学主张最终被证明是错误的。贝叶斯主义者声称他们的方法可以帮助科学家克服确认偏差并产生更可靠的结果,但我对此表示怀疑。
正如我上面提到的,一些弦理论和多元宇宙爱好者正在拥抱贝叶斯分析。为什么?因为爱好者们厌倦了听到弦理论和多元宇宙理论是不可证伪的,因此是不科学的,而贝叶斯定理允许他们以更有利的方式呈现这些理论。在这种情况下,贝叶斯定理远非抵消确认偏差,而是使其成为可能。
正如科学作家费耶·弗拉姆最近在《纽约时报》上所说,贝叶斯统计学“无法将我们从糟糕的科学中拯救出来”。贝叶斯定理是一种通用的工具,可以服务于任何事业。哈佛大学著名的贝叶斯统计学家唐纳德·鲁宾曾担任烟草公司的顾问,这些公司正面临因吸烟造成的损害而提起的诉讼。
尽管如此,我仍然对贝叶斯定理着迷。它让我想起了进化论,另一个似乎同义反复地简单或令人望而生畏地深刻的想法,这取决于您如何看待它,并且它激发了大量的无稽之谈以及深刻的见解。
也许是因为我的大脑是贝叶斯式的,但我已经开始在各处检测到对贝叶斯的暗示。最近在Kindle上研读埃德加·爱伦·坡的《全集》时,我在《楠塔基特岛的亚瑟·戈登·皮姆的故事》中看到了这句话:“在没有任何纯粹偏见的事情中,无论赞成还是反对,即使从最简单的数据中,我们也不会完全确定地推断出结论。”
在跳上贝叶斯马车之前,请记住坡的警告。
*我的朋友格雷格、加里和克里斯在发布之前扫描了这篇文章,因此他们应该为任何错误负责。
附言:哥伦比亚大学的贝叶斯统计学家安德鲁·盖尔曼(我在上面(在关于唐纳德·鲁宾的评论中)链接到他的博客)给我发来了这份征求意见的评论:“我研究社会和环境科学与政策,而不是理论物理学,所以我真的无法评论贝叶斯是否被用来论证弦理论和多元宇宙理论!我实际上不喜欢将结果定义为假设为真的概率。这在一些简单的设置中有效,在这些设置中,“假设”或可能性定义明确,例如拼写检查(请参见此处:http://andrewgelman.com/2014/01/22/spell-checking-example/)。但我认为认为某些科学假设为真或假的概率是没有意义的;请参见本文:http://andrewgelman.com/2014/01/22/spell-checking-example/。简而言之,我认为贝叶斯方法是在模型中进行推理的好方法,但总的来说,不是评估模型或假设为真的概率的好方法(实际上,我认为“模型或假设为真的概率”通常是一个毫无意义的陈述,除非在某些狭隘但重要的示例中除外)。我还注意到你的这段话:‘在许多情况下,估计先验只是猜测,允许主观因素渗入你的计算。您可能在猜测一些甚至不存在的事物的概率——不像癌症那样——例如弦、多元宇宙、暴胀或上帝。然后您可能会引用可疑的证据来支持您可疑的信念。通过这种方式,贝叶斯定理可以促进伪科学和迷信,以及理性。’我认为这段引文在某种程度上具有误导性,因为
模型的所有部分都是主观猜测。或者,换句话说,统计模型的所有部分都需要被理解和评估。我反对数据模型被假定为正确,而先验分布是可疑的这种态度。这是我写的一篇关于这个主题的文章:http://andrewgelman.com/2015/01/27/perhaps-merely-accident-history-skeptics-subjectivists-alike-strain-gnat-prior-distribution-swallowing-camel-likelihood/。”
延伸阅读: