在 COVID-19 模型中突出未知因素

在高度不确定时期,我们应该超越数据

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映作者的观点,不一定代表《大众科学》的观点


随着美国在 COVID-19 病例和增长率方面位居榜首,媒体中普遍存在后悔的情绪。未能及时采取更严格的疏远措施让许多领导人和公民感到不安。作为一名不确定性可视化研究人员,我担心我们对 COVID-19 的反应会带来另一种遗憾。

许多可视化图表,包括广为传播的“拉平曲线”图表的各种变体,都代表了模型产生的估计值。这些模型模拟了在不同条件下会被感染、需要住院或死亡的人数。“拉平曲线”改编了 CDC 在 2007 年首次提出的可视化图表,以比较在不同程度和持续时间的社交疏离下的估计值。作者添加了一条虚线,表示他对该国可用病床数量的估计。

人们很容易将模拟产生的病例和死亡预测视为基于我们所知信息的完整描述。一方面,这些模型吸收了多种来源的可用数据:关于 COVID-19 病例、死亡和住院率;关于 COVID-19 在世界其他地区不同条件下传播的速度;以及关于相关病毒过去如何传播,仅举几例。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关当今世界正在形成的发现和想法的有影响力的故事的未来。


模型结果非常强大,因为我们可以从中计算风险。例如,在疏远措施下,我们的死亡率达到意大利那样 10% 的可能性有多大?病毒在两到三周内达到峰值的可能性有多大?通过量化未知因素,风险评估可以清楚地表明,将会发生的事情并非完全确定,但它仍然可以使我们能够做出决策并权衡利弊。

作为一名不确定性推理专家,我担心的是一种更困难的不确定性:即由 COVID-19 数据和模型背后的许多未知因素引起的不确定性。我们无法轻易量化这种不确定性,而且它很容易被忽视,因为它没有通过模型估计值来传达。

一种无法量化的不确定性源于我们对输入到这些模型中的数据的准确性估计能力有限。关于 COVID-19 病例数的可用数据可能不可靠,这是因为不同地点的检测规模差异很大,加上单个地点的检测应用方式不一致。这导致病例数比较是苹果与橙子的比较。一个地方的病例数较多,甚至人均病例率较高,并不一定意味着风险较高。更可能的是,这意味着医疗服务提供者在该地点进行更广泛的检测。在我们实施更全面、非选择性的检测之前,我们无法准确量化这些数据的偏倚风险。

关于 COVID-19 死亡的数据可能更可靠,但可能仍然远非完美。例如,可能很难追踪老年人的死亡是 COVID-19 还是其他先前存在的疾病造成的。社区决策者也可能会为了避免传播恐慌或损害当地经济而选择低报死亡人数。

第二种无法量化的不确定性源于这样一个事实,即模型通常是对现实情况的粗略简化。许多用于预测我们在 COVID-19 下未来的模型都做出了强有力的假设,而这些假设似乎与我们在现实中期望的情况相矛盾。模型在其对疾病传播背后机制的假设方面有所不同。一些方法侧重于将曲线拟合到可用数据,而不是假设考虑诸如潜伏期和感染后免疫等现实情况的机制。

其他模型考虑了这些动态,但对人们在危机面前行为的可预测性做出了强有力的假设。有时被称为模糊性,像模型作为现实的替代品这种无法量化的不精确性等非数值不确定性意味着我们的预测可能存在偏差,偏差大小取决于模型假设的缺陷程度。“所有模型都是错误的,但有些模型是有用的

”统计学家乔治·博克斯说,提醒我们理解模型作为思考工具和期望模型成为预言之间的紧张关系。不幸的是,对模型假设的仔细批判,就像其他坦率地呈现不确定性的方式, 一样,很少出现在用于呈现结果的面向公众的文章或可视化图中。

模型的预测似乎很全面,因此特别容易忽略模型所做的假设的强度。模型通常会产生一组预测结果,而不是像计数这样的单个数字。“拉平曲线”,例如,显示了两个区域,表示一段时间内的病例数:如果我们采取保护措施,以及如果我们不采取保护措施。在第一个确诊病例后,每天都会显示预测的感染人数。

即使没有显示与模型预测相关的可量化不确定性——在这种情况下,我们看不到在模型假设下,每天预测的病例数可能采用的其他值——像“拉平曲线”这样的可视化图表可以通过它们产生的一系列预测来暗示完整性。对于许多人来说,看到在一段时间或空间内可能性的分布的图形表示似乎是科学谨慎的缩影。然而,在看似精确的视觉效果背后,存在许多近似值。

不确定性的存在是否意味着许多州正在实施的极端社交疏远措施是反应过度?不一定。在缺乏良好的风险评估的情况下,防范最坏情况的结果是理性的。在我们获得更好的数据之前,这是我们能做的最好的事情。

危险的是,如果我们未能认识到,现在基于有限信息和强假设做出的模型预测,与随着病毒蔓延而逐渐出现的更可靠的数据之间的区别。如果早期的模型预测最终高估了 COVID-19 的死亡人数或对我们医疗系统的风险,或者大大低估了它,那么许多人可能会责怪科学家犯了错误。他们将来可能会更不信任数据驱动的估计。

清晰地呈现不确定性可能会使模型估计值显得不那么令人放心,但可以防止人们在模型出错时责怪预测者或科学事业本身,这是我们应该预料到的。为了在短期内感觉更安心而牺牲公众对科学的信任是不值得的,无论我们多么想消除不确定性。  

© . All rights reserved.