尽管出现至今还不到三年,但引发 COVID 的病毒 SARS-CoV-2 可能是历史上研究最多且基因测序最多的病原体。世界各地的疾病监测团队已将数百万个病毒序列上传到公共数据库,研究人员可以通过这些数据库追踪病毒的传播方式。
一项新的计算模型挖掘了前所未有的大量数据——超过 640 万个 SARS-CoV-2 序列——以寻找有助于新病毒株在世界各地传播的突变模式。该模型名为 PyR0,分析了不同病毒谱系在 2019 年 12 月至 2022 年 1 月期间的出现和传播方式。根据这些数据,它学会了如何识别突变的组合以及诸如 Delta 或 Omicron 等变异株成为优势株所需的时间。研究人员在 5 月份的《科学》杂志上描述了该模型,它可以让公共卫生项目提前了解哪些谱系可能具有危险性,并让官员们提前计划。
PyR0 使用了截至 2021 年 12 月中旬的数据,正确预测了 奥密克戎 BA.2 亚变异株(当时在世界大部分地区都很罕见)将很快迅速传播。到 2022 年 3 月,BA.2 已成为全球主要毒株。如果该模型在 2020 年 11 月运行,它也会正确预测 Alpha 变异株将很快成为优势株:世界卫生组织直到当年 12 月才将 Alpha 确定为需要关注的变异株。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保有关当今世界重大发现和思想的有影响力的报道能够持续下去。
大多数 COVID 疫苗都以病毒的刺突蛋白为靶点,病毒利用刺突蛋白进入细胞。这种蛋白质的突变似乎使某些变异株能够逃避人体对疫苗接种或先前感染产生的免疫反应。PyR0 模型发现,仅仅拥有大量刺突蛋白突变并不一定使毒株在进化上更具适应性。但 2021 年末的一些特定刺突突变帮助奥密克戎亚变异株 BA.1 和 BA.2 逃避了免疫系统。
PyR0 还发现,BA.2 基因组中一组影响病毒复制的非刺突突变可能促成了其快速传播。研究人员表示,该模型快速分析整个基因组的能力可能有助于科学家了解病毒基因组的哪些区域需要研究,以便开发未来的疗法。
《大众科学》采访了研究合著者雅各布·莱米厄,他是马萨诸塞州理工学院博德研究所和哈佛大学的传染病研究员,也是波士顿马萨诸塞州总医院的医生,探讨了从大型数据集中“学习”的算法如何预测疫情的未来。
[以下是采访的编辑稿。]
PyR0 能告诉我们关于下一个主要变异株的什么信息?
我们不一定能说出接下来会发生什么突变。我们能说的是,就频率而言,哪些谱系最有可能增加。
换句话说,如果一辆汽车以每小时 70 英里的速度行驶,而另一辆汽车以每小时 35 英里的速度行驶,我们可以预测在一定时间内,每小时 70 英里的汽车将会赶上并超过另一辆汽车。但这些预测只在不久的将来有效,因为疫情的运作方式是,突然之间,一辆每小时 210 英里的汽车横空出世,彻底改变了动态。
令人惊讶的是,这种情况一次又一次地发生。首先是 D614G 变异株,然后是 Alpha,然后是 Delta,然后是 Omicron;现在是 Omicron BA.2 及其近亲 BA.4 和 BA.5。因此,这种动态似乎是疫情的一个普遍特征。
但是,让汽车跑得快的东西——赋予这种适应性优势的特性——似乎随着时间的推移而发生了变化。Omicron 尤其似乎具有很强的免疫逃逸能力,特别是通过逃避人体抗体反应。这种特性对病毒来说变得越来越重要,这是有道理的,因为很多人要么感染过 COVID,要么接种过疫苗,或者两者都接种过。
似乎这种不断增强的免疫逃逸一直在整个疫情期间酝酿,现在它已经真正达到了充分体现。这不是第一项表明这一点的研究,但它系统地证明了这一点。而且,这种免疫逃逸很可能将继续成为谱系增长的一部分。在本研究的背景下,我们无法预测未来会产生哪些突变并赋予额外的免疫逃逸能力。
您的模型如何帮助预测和追踪新的变异株?
我们正在建模的是不同谱系中不同突变组合如何影响病毒变异株在人群中的增长率。[编者注:谱系是具有共同祖先的一组变异株。] 因为每个新的谱系都有一系列突变——其中一些我们以前在其他谱系中见过——我们可以开始问“哪些突变正在驱动这种情况?”这个问题。
我们正在世界各地的许多不同地区对这个问题进行建模,然后基本上将信息汇总到一个模型中。我们能够做到这一点的原因是,来自世界各地的人们都在对病毒进行测序,并且他们正在用采集的日期和地区标记序列。因此,我们知道,在不同的地区,哪些谱系的频率相对于其他谱系正在增加。这些信息非常宝贵——没有这种信息,我们将无法创建我们的模型。
实际实施该模型并将其拟合到数据是一个真正的计算挑战。主要研究作者弗里茨·奥伯迈耶来自 Uber AI,Uber AI 的研究人员开发了一种编程语言和一个软件框架,该框架使用机器学习来对概率进行建模并将其应用于大型数据集。能够将这些方法应用于我们以前从未有过的规模的数据,真是太棒了。
我们正在努力改进模型,并且我们有一个新版本。我们实际上认为成功的谱系是由少数突变驱动的,而其他突变只是顺便搭车。一个相关的挑战是试图研究突变之间的遗传或统计相互作用。也许突变 1 使病毒更具适应性;也许突变 2 使其更具适应性。但也许 1 和 2 的组合实际上使其适应性降低。这些类型的相互作用真的很难处理,因为它们的数量增长得太快了。
这个模型如何帮助我们规划应对疫情的措施?
我们正在学习的一件事是,新出现病毒的基因组测序是疫情应对的一部分。例如,我们看到目前正在爆发的猴痘疫情进行了大量基因组测序。
数据太多了,我们不能让人类仅仅筛选所有数据。我们需要系统的、统计的机器学习程序来辅助人类检测新的变异株。作为一种疾病监测支持工具,这种方法可能非常有用。我们正在尝试自动化该模型,以便我们可以定期运行它,看看我们是否可以标记出我们应该担心的事情。
我们发现,通过对突变而不是仅仅对谱系进行建模,该模型更智能,并且学习速度更快。您了解谱系属性的速度越快,您就越了解应该有多担心。
我不认为这个模型可以取代完善的疾病监测计划——例如政府和国际组织运行的计划。它是一种支持工具,可供此类计划系统地筛选和排列正在上升的谱系。我认为,随着流感和其他病毒的数据积累,这种方法在未来将是可行的。