在2007年的一次竞选广告中,纽约市前市长鲁迪·朱利安尼说:“五六年前我得了前列腺癌。我在美国患前列腺癌的存活率是多少?百分之八十二。我在英国患前列腺癌的存活率是多少?在社会化医疗体制下只有百分之四十四。” 朱利安尼用这些统计数据来论证他很幸运住在纽约而不是约克。这一声明成了大新闻。正如我们将要解释的那样,这也是一个大错误。
1938年,在《世界大脑》(Methuen & Co. 出版)一书中,英国作家 H. G. 威尔斯预言,对于现代民主社会中受过教育的公民来说,统计思维将像读写能力一样不可或缺。在 21 世纪初,几乎每个生活在工业社会的人都接受过读写教育,但没有接受过统计思维教育——即如何理解我们技术世界中关于风险和不确定性的信息。许多医生、记者和像朱利安尼这样的政治家也缺乏这种理解,结果导致他们向公众传播误解。
统计文盲并非根植于内在的智力缺陷——例如,缺乏“数学基因”——而是根植于社会和情感力量。这些影响包括医患关系中的家长式作风、医学中确定性的错觉,以及以晦涩难懂的形式呈现健康信息的做法,这些形式错误地暗示了干预措施的巨大益处和微小危害。当公民不理解这些数字时,他们很容易受到政治和商业对其焦虑和希望的操纵。其结果可能会对身心健康造成严重损害。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续看到有关塑造我们当今世界的发现和思想的有影响力的报道。
我们将向您展示如何识别医学中三种类型的统计操纵和混淆,如何将晦涩难懂的数字转化为有意义的数字,以及如何使用这些信息做出更好的医疗决策。为了从一开始就避免此类误解,我们认为医学期刊、媒体和其他机构应该以更容易理解的形式传播风险信息。此外,我们建议从小培养儿童的统计思维,并将统计学作为解决实际问题的一种方式来教授,而不是作为一门纯粹的数学学科。
信任你的医生?
医学长期以来一直对统计学抱有敌意。几个世纪以来,治疗都是基于个人信任的伦理,而不是定量的、被认为是非个人的或与个人无关的事实。即使在今天,许多医生仍然认为自己是艺术家,更多地依赖直觉和对自己判断的信心,而不是数字。就患者而言,许多人宁愿信任医生,甚至不愿意要求提供数据进行分析。例如,在我们中的一位(Gigerenzer)及其同事在 2008 年进行的一项未发表的调查中,超过三分之二的 100 多位美国经济学家表示,他们没有权衡进行前列腺癌筛查的任何利弊,而只是遵循了医生的建议。
此外,个人常常回避统计数据,因为他们对确定性有一种情感需求——这与统计素养的概念背道而驰,统计素养让我们能够在面对不确定性时做出决策。Gigerenzer 在 2006 年进行的一项调查表明,公众对癌症和 HIV 等检测的可靠性抱有虚幻的确定性。
此外,统计学知识不足的患者及其医生往往会极大地高估筛查检测的益处,而对它们的危害视而不见。例如,乳房 X 线照片将 50 多岁女性死于乳腺癌的风险从大约 13 年内的 1/1000 降低到 4/1000,但美国随机抽样的女性中有 60% 认为益处高出 80 倍。美国人对全身计算机断层扫描 (CT) 也同样过于热情:在 500 名美国人的随机样本中,近四分之三的人表示,他们宁愿选择免费的全身 CT 扫描,也不愿选择 1,000 美元现金。然而,没有一家专业医疗机构认可此类扫描,一些机构甚至不鼓励这样做,因为此类筛查检测可能会因模糊的发现而引发一系列医疗难题和侵入性治疗,从而造成重大危害。
现代技术社会中的公民面临着一系列令人眼花缭乱的医疗决策。35 岁的孕妇是否应该进行染色体异常的产前筛查?父母是否应该送他们的少女去接种人乳头瘤病毒疫苗,以保护她们免受宫颈癌的侵害,尽管有一些报告称该疫苗 (Gardasil) 可能会导致瘫痪?如果人们想做出明智的决定,他们需要理解健康统计数据。特别是,他们需要理解绝对风险和相对风险之间的区别,以及如何使用自然频率从阳性检测结果中推断出疾病的真实概率。在评估针对健康人群的筛查检测时,个人也应该知道要信任死亡率而不是五年生存率统计数据。我们将依次处理这些问题。
绝对风险
1995 年 10 月,英国药品安全委员会警告说,第三代口服避孕药会使腿部或肺部可能危及生命的血栓的可能性增加一倍——即增加 100%。这一信息通过“致医生函”传递给 190,000 名全科医生、药剂师和公共卫生主管,并在向媒体发布的紧急公告中发布。这一消息引起了极大的焦虑,妇女停止服用避孕药,导致英格兰和威尔士在接下来的一年中估计增加了 13,000 例堕胎。每增加一次堕胎,就会额外增加一次生育,其中包括 16 岁以下女孩的约 800 例额外怀孕。(具有讽刺意味的是,堕胎和怀孕与血栓形成的风险增加有关,而这种风险超过了第三代避孕药的风险。)
如果以更直接的方式报告数据,就可以避免这种恐慌。证据表明,每 7,000 名服用第二代避孕药的妇女中,约有 1 人出现血栓;在服用第三代避孕药的妇女中,这一数字增加到 7,000 人中的 2 人。也就是说,即使相对风险增加确实为 100%,绝对风险增加也仅为 1/7,000。绝对风险通常是小数字,而相应的相对变化往往看起来很大——尤其是在基线率较低时。
报告相对风险可能会产生不切实际的希望以及不必要的焦虑。如果以相对风险降低的形式表达益处,许多患者和医生会更积极地评估治疗或检测。例如,在 2007 年对实验研究的回顾中,英国杜伦大学的心理学家朱迪思·科维发现,当以相对风险降低的形式呈现药物的益处时,91% 的丹麦全科医生会向患者推荐该药物。但是,当给出绝对风险降低时,只有 63% 的人会推荐同一种药物。
信息手册、医生、医学期刊和媒体继续以相对变化的形式告知公众,部分原因是大的数字更能成为头条新闻并引起更多关注。一份宣传单甚至将两者混为一谈,声称激素替代疗法 (HRT)“已被证明可以保护女性免受结直肠癌的侵害(高达 50% 以上)”,而乳腺癌的风险“可能会增加 0.6%(千分之六)”。数据显示,50% 的益处对应于一个小于千分之六的绝对数字——这意味着 HRT 产生的癌症病例多于它预防的病例。但是,根据 2003 年的一项研究,80 名女性中有 60 名从宣传单中得出了完全相反的结论。
绝对风险更具信息量,因为它们考虑了有关背景发生率的信息。给定绝对风险,一个人可以推导出相对风险——但反之则不然。毕竟,50% 的相对风险降低可能描述的是 10,000 名患者中死亡人数从 200 人大幅减少到 100 人,也可能描述的是 10,000 名患者中死亡人数从 2 人小幅减少到 1 人。随机试验提供了医学中一些最好的信息,但除非充分报告结果,否则人们将无法评估它们。
自然频率
假设一位女性刚刚收到乳房 X 线照片的阳性结果,并询问她的医生:我确定得了乳腺癌吗?或者我得这种病的几率有多大?在 2007 年面向妇科医生的继续教育课程中,Gigerenzer 要求 160 位从业者根据以下关于该地区女性的信息回答这个问题
女性患乳腺癌的概率(患病率)为 1%。
如果女性患有乳腺癌,则她检测呈阳性(敏感性)的概率为 90%。
如果女性没有患乳腺癌,则她仍然检测呈阳性(假阳性率)的概率为 9%。
对患者的询问的最佳答案是什么?
她患乳腺癌的概率约为 81%。
在 10 位乳房 X 线照片呈阳性的女性中,约有 9 位患有乳腺癌。
在 10 位乳房 X 线照片呈阳性的女性中,约有 1 位患有乳腺癌。
她患乳腺癌的概率约为 1%。
妇科医生可以从上面的统计数据中推导出答案,或者他们可以简单地回忆起他们无论如何都应该知道的东西。无论哪种情况,最佳答案都是选项 3;在筛查中检测呈阳性的每 10 位女性中,只有大约 1 位实际上患有乳腺癌。其他 9 位是虚惊一场。在接受培训之前,大多数(60%)妇科医生回答 90% 或 81%,从而严重高估了患癌症的概率。只有 21% 的医生选择了最佳答案——十分之一。
如果围绕检测的统计数据以自然频率呈现,医生将更容易推导出正确的概率。例如
每 1,000 名女性中,有 10 名患有乳腺癌。
在这 10 位患有乳腺癌的女性中,有 9 位检测呈阳性。
在 990 位未患癌症的女性中,约有 89 位仍然检测呈阳性。
因此,98 位女性检测呈阳性,但其中只有 9 位实际上患有该疾病。在学习将条件概率转化为自然频率后,87% 的妇科医生理解十分之一是最佳答案。同样,英国利物浦大学的心理学家罗斯·布拉姆韦尔及其同事在 2006 年报告说,在 21 位产科医生中,只有 1 位能够正确估计出给定阳性检测结果的未出生儿童实际患有唐氏综合征的概率。当他们获得相关的自然频率时,20 位产科医生中有 13 位得出了正确答案。
医生需要告知患者,没有完美的检测,每个检测结果都需要谨慎解释,或者需要重复检测。每位接受乳房 X 线照片检查的女性都应该被告知,许多可疑结果都是虚惊一场。所有此类检测,甚至 HIV 检测,都存在类似的不确定性。在 1987 年的一次艾滋病会议上,时任佛罗里达州参议员劳顿·柴尔斯报告说,在佛罗里达州被告知 HIV 检测呈阳性的 22 位献血者中,有 7 位自杀身亡。尽管 HIV 检测可以检测出 99.9% 的真阳性感染,并且 99.99% 的阴性结果是准确的,但在低风险异性恋男性中,非常低的基线率意味着当男性在筛查中检测呈阳性时,感染的几率可能低至 50% [参见上面的方框]。 (但是,当基线率较高时,例如,在有无保护性行为的同性恋男性或共用针头的静脉吸毒者中,HIV 检测阳性结果的真阳性感染几率几乎是肯定的。因此,人群中的基线率决定了阳性检测结果的含义。)
死亡率很重要
在竞选总统期间,朱利安尼声称美国的医疗保健优于英国。他显然使用了 2000 年的数据,当时每 10 万名英国男性中有 49 人被诊断出患有前列腺癌,其中 28 人在五年内死亡——约占 44%。他使用了类似的方法,引用了美国相应的 82% 的五年生存率,表明美国前列腺癌患者的生存可能性是英国同行的两倍。然而,这种暗示是错误的,因为这些生存统计数据在很大程度上反映了两国之间的诊断差异,而不是美国更好的治疗和延长的生存期。
要理解为什么,请想象一组在英国 67 岁时(根据他们的症状)被诊断出患有前列腺癌的患者,他们都在 70 岁时去世。每个人只存活了三年,因此该组的五年生存率为 0%。现在想象一下,同一组人在美国被诊断出来,美国的医生通过前列腺特异性抗原 (PSA) 筛查来检测大多数前列腺癌。(PSA 检测在英国不常用。)这些美国患者的诊断时间较早,为 60 岁,但他们仍然都在 70 岁时去世。所有人现在都存活了 10 年,因此他们的五年生存率为 100%。即使生存率发生了巨大变化,死亡时间也没有改变。这个例子表明,即使没有延长或挽救生命,提前诊断时间如何能够提高生存率(提前期偏倚)。
虚假的生存率升高也可能来自过度诊断,即检测到技术上是癌症但永远不会发展到在患者一生中引起症状的异常情况。假设 1,000 名患有进展性癌症的男性未接受筛查。五年后,仍有 440 人活着,导致生存率为 44%。与此同时,在另一组男性中,PSA 筛查检测到 1,000 名患有进展性癌症的人和 2,000 名患有非进展性癌症的人(根据定义,他们不会在五年内死于癌症)。现在,这些非进展性病例被添加到 440 名存活的进展性癌症患者中,从而将生存率夸大到 81%。尽管生存率发生了巨大变化,但死亡人数根本没有改变。
在美国,在 1980 年代后期使用 PSA 检测进行前列腺癌筛查导致新的前列腺癌诊断数量激增。在英国,由于 PSA 检测的使用量要少得多,因此影响要小得多。这种诊断差异在很大程度上解释了为什么美国前列腺癌的五年生存率更高。(最新的数字是美国五年生存率为 98%,而英国为 71%。)
尽管生存率存在差异,但两国的死亡率却相近:美国男性前列腺癌死亡人数约为每 10 万人 26 人,而英国为每 10 万人 27 人。这一事实表明,PSA 检测不必要地标记了许多美国男性的前列腺癌,导致了大量不必要的手术和放射治疗,而这些治疗通常会导致阳痿或失禁。
由于过度诊断和提前期偏倚,当诊断模式不同时,五年生存率的变化与死亡率的变化没有可靠的关系。然而,许多官方机构仍在谈论五年生存率。英国国家统计局最近的一份报告指出,美国的结肠癌五年生存率为 60%,而英国为 35%。专家将这一发现称为“可耻”,并呼吁将政府在癌症治疗方面的支出增加一倍。事实上,英国结肠癌的死亡率与美国大致相同。在一个更奇怪的案例中,著名的德克萨斯大学 MD 安德森癌症中心的广告将生存率与死亡率混为一谈:“随着 1960 年至 1990 年间全国前列腺癌死亡率的波动,MD 安德森患者的前列腺癌五年生存率持续提高”(重点已添加)。
与五年生存率相比,死亡率是衡量筛查项目价值的更可靠指标,五年生存率因早期诊断和过度诊断而提高了生存率。那么,男性应该接受 PSA 检测还是吸烟者应该接受 CT 扫描以筛查肺癌?这两种检查都可以发现更多早期癌症——但都没有被证明可以降低死亡率。
人们通常认为筛查是保障他们健康的措施,即使疾病很少见。但是,额外的检测可能会导致不必要的医疗干预,从而可能造成伤害,这意味着这种策略绝非“安全”。对于许多过度诊断的患者来说,治疗只能造成伤害。诊断的流行可能像疾病一样危害我们的健康。
解决问题
如果研究人员、医生和媒体使用直接的数字而不是令人困惑的数字,统计误解就会少得多:绝对风险而不是相对风险,自然频率而不是条件概率,死亡率而不是五年生存率。除了改变健康统计数据的报告方式外,我们还需要更好地教育我们的年轻人了解风险科学。
如今,美国的数学课程以确定性数学为中心——从算术到微积分——而概率和统计学的教学出现得太晚了。正如 H. G. 威尔斯所建议的那样,统计学应该像读写一样尽早教授。事实上,美国全国数学教师委员会多年来一直在推动教育工作者在小学阶段开始统计学和概率的教学。如果孩子们学会以有趣的方式应对不确定的世界,那么大部分集体统计文盲现象将成为历史。
此外,教师需要以不同的方式对待统计学。教师不应该教学生如何将公式应用于涉及纸牌和骰子的玩具问题,而应该向他们展示如何使用数字来解决现实世界中的困境。甚至可以将统计学从数学教育工作者手中夺走,创建一个与学校健康教学相关的解决问题领域。这样一个新领域可能有助于年轻人就药物、酒精使用、驾驶、生物技术和其他相关的健康问题做出更好的决定。
在一个关于这种方法的出色示例中,一本中学教科书讲述了一个真实的故事,一个 26 岁的单身母亲在一次常规 HIV 检测中呈阳性,失去了工作,搬进了一家与其他 HIV 阳性居民合住的中途宿舍,与其中一位发生了无保护性行为,最终患上了支气管炎,她的新医生要求她再次进行 HIV 检测。她做了,结果是阴性,她的原始血样在重新检测时也是阴性。这位妇女经历了一场噩梦,因为她的医生没有意识到阳性检测结果不是最终结果,而是在这位妇女的情况下,这意味着只有 50% 的感染几率,因为她属于低风险人群。
统计素养可以改变生活,帮助个人做出更好的个人选择,识别误导性广告和公益广告信息,并对自己的健康采取更放松的态度。统计素养的梦想体现了启蒙运动的理想,即人们从自我强加的不成熟状态中解放出来。用康德的话说,“敢于求知!”
注:本文最初印刷时的标题为“了解你的概率”。