2021年2月,据报道,七名俄罗斯家禽农场工人感染了H5N8型禽流感。这种亚型的禽流感以前从未被认为会感染人类,病毒的基因序列很快被上传到基因数据存储库GISAID。对于华盛顿特区乔治城大学的生物学家科林·卡尔森来说,这是一个机会。“我立刻想到,‘我想用FluLeap运行一下’,”他说。
FluLeap是一种机器学习算法,它使用序列数据将流感病毒分类为禽类或人类。该模型已经用大量的流感病毒基因组(包括H5N8的例子)进行训练,以学习感染人类的病毒和感染鸟类的病毒之间的差异。但是,该模型从未见过被归类为人类的H5N8病毒,卡尔森很想看看它对这种新型亚型的看法。
令人有些惊讶的是,该模型以99.7%的置信度将其识别为人类病毒。该模型似乎并没有简单地重复其训练数据中的模式,例如H5N8病毒通常不感染人类这一事实,而是推断出一些与人类相容的生物学特征。“该模型有效,这令人震惊,”卡尔森说。“但这只是一个数据点;如果我能再做一千次,那就更令人震惊了。”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
病毒从野生动物传播到人类的动物源性过程是大多数大流行的原因。随着气候变化和人类对动物栖息地的侵占增加了这些事件的频率,了解人畜共患病对于预防大流行,或至少更好地做好准备至关重要。
研究人员估计,地球上大约1%的哺乳动物病毒已被识别1,因此一些科学家试图通过对野生动物进行采样来扩大我们对这种全球病毒组的了解。这是一项艰巨的任务,但在过去十年左右,一门新的学科已经兴起——研究人员在其中使用统计模型和机器学习来预测疾病出现的各个方面,例如全球热点地区、可能的动物宿主或特定病毒感染人类的能力。这种“人畜共患病风险预测”技术的倡导者认为,它将使我们能够更好地将监测目标对准正确的区域和情况,并指导最有可能需要的疫苗和疗法的开发。
然而,一些研究人员对预测技术应对病毒组的规模和不断变化的性质的能力持怀疑态度。改进模型及其依赖的数据的努力正在进行中,但如果要减轻未来大流行的影响,这些工具需要成为更广泛努力的一部分。
病毒搜寻
一些研究人员长期以来认为,扩大我们对病毒多样性的了解将有助于管理大流行威胁。PREDICT是美国国际开发署(USAID)资助的一个2亿美元的项目,花了大约十年时间寻找动物病毒。到2020年结束时,它已在34个国家/地区的野生动物、牲畜和人类样本中发现了949种新病毒。
事后看来,PREDICT的一些发现可能显得很有先见之明。2017年的一项研究2 估计,蝙蝠体内存在数千种未被发现的冠状病毒(被广泛认为是SARS-CoV-2病毒的来源),并预测东南亚将是SARS-CoV-2所属科中病毒数量最多的地区。它还将涉及高度人与野生动物接触的活动(如野生动物市场)与冠状病毒的较高流行率联系起来。
另一项2017年的研究3 收集了关于哪些病毒感染哪些哺乳动物的数据,创建了一个病毒-宿主关联数据库。“我们的目标是了解哪些病毒能够感染人类,我们最常从哪些动物身上获得新病毒,以及驱动这些模式的潜在因素,”纽约市生态健康联盟的生态学家和研究负责人凯文·奥利瓦尔说,该联盟是一个专注于生物监测和保护的非营利机构。该团队的分析表明,给定宿主物种中可以感染人类的病毒比例受到人类与该物种的亲缘关系,以及影响人与野生动物接触的因素(如人类人口密度和该物种地理范围内的城市化程度)的影响。该团队使用统计建模来预测可能携带大量未被发现病毒的动物群体和区域——蝙蝠与啮齿动物和灵长类动物一起在南美洲、非洲和东南亚等地区中突出显示。研究人员还发现了与病毒是人畜共患病相关的特征,例如它可以感染的物种范围。
该团队表示,这些信息可以帮助指导监测工作。“它可以让我们预测风险最高的地区,”加州大学戴维斯分校的流行病学家、PREDICT主任乔纳·马泽特说。识别具体威胁还可以让当地研究人员和医护人员调整缓解和应对能力。“它可以让社区说‘我们有这个、这个和这个,我们可以通过这些方式降低风险’,”马泽特说。
PREDICT原本只是一个试点项目。“它生成了大量数据,但这只是沧海一粟,”奥利瓦尔说。“我们需要更大的项目。”因此,研究人员在2016年提出了全球病毒组项目(GVP),该项目被视为政府机构、非政府组织和研究人员的全球合作伙伴关系,旨在发现哺乳动物和鸟类(大多数人畜共患病毒来自这些动物)中的大多数病毒。然而,面对一些研究人员的批评,该项目从未获得资助。马泽特说,它今天作为一个非营利组织存在,旨在为各国提供开展自身病毒调查所需的知识。美国国际开发署于2021年10月启动了一个规模较小、成本低得多的项目,名为“新出现病原体的发现和探索——病毒性人畜共患病”(DEEP VZ)。
对GVP的一项批评是,任务规模简直是无法管理的。PREDICT研究人员估计4 哺乳动物和鸟类中存在167万种未知病毒,尽管这个数字存在争议,但毫无疑问,病毒组是巨大的。它也在不断变化,因此一次性的发现努力是不够的。“RNA病毒的进化速度很快,”澳大利亚悉尼大学的病毒学家爱德华·霍姆斯说。“所以你必须不断地做下去。”
也有人怀疑该项目是否能识别出潜在的大流行病。“在理解病毒进化和生态学方面,我对它没有异议,”霍姆斯说。“但作为理解接下来会发生什么的一种预测工具,它根本行不通。”一个问题是一些宿主物种和病毒科已经被深入研究,但另一些则几乎没有被触及。现有数据也偏向于已经溢出的病毒5。新西兰奥塔哥大学的病毒学家杰玛·乔根根说,因此,到目前为止,大多数预测都是基于“完全有偏见的数据”。此外,即使发现了一种病毒并对其基因组进行了测序,许多可能影响其引发大流行潜力的因素,例如其感染人类和在人与人之间传播的能力,仍然不清楚。“然后你必须做所有这些实验,这将花费数年时间和巨额资金,”霍姆斯说。
这就是机器学习可能提供捷径的地方。模型可以用来标记高优先级的目标以供进一步研究,而不是试图完全表征每一种新病毒。“我们需要的是下游的分类系统,这样我们就知道哪些病毒需要进行深入的病毒学研究来表征,”科罗拉多大学博尔德分校的病毒学家萨拉·索耶说。

蝙蝠携带许多未知的冠状病毒。图片来源:AttilaBarsan/Getty Images
模型内部
当发现一种病毒时,通常除了其基因序列外,对其知之甚少。因此,仅使用基因组就可以对病毒进行分类的模型将特别有用。英国格拉斯哥大学的计算病毒学家纳杜斯·莫伦策和他的同事开发了一种这样的模型,该模型部分通过衡量病毒与人类基因组部分的遗传相似性来评估病毒6。病毒的进化压力可能导致产生类似于宿主基因组的遗传片段——要么是为了逃避免疫系统,要么是为了帮助复制。在对861种已知病毒的文库进行测试时,该算法可以以70%的准确率将它们分类为人畜共患病或非人畜共患病。
莫伦策后来加入了病毒出现研究倡议(Verena),这是一个寻求开发和改进人畜共患病预测模型的科学家联盟。莫伦策与Verena的研究人员合作,将他的算法与利用病毒感染哪些宿主的知识的技术相结合,包括推断未知宿主-病毒关联的方法。这种组合方法将性能提高了大约十个百分点7。未来,病毒在分子水平上如何与宿主相互作用的知识可以被纳入其中。“这将完全是关于蛋白质和生物化学的,”Verena的主任卡尔森说。“这是这个领域的未来。”
一个重要的目标是了解哪些模型效果良好,以及原因。有些模型只是根据数据中的模式进行分类,有些模型则推断这些模式的原因,但很难区分它们。“现在的问题是:我们只是在教机器重复它们已经知道的东西,还是它们正在学习适用于新空间的原则?”卡尔森说。
为了取得进展,验证模型的过程将至关重要。例如,一些研究试图预测哪些物种是人畜共患病毒的宿主,结果好坏参半,但几乎没有系统的比较,这使得很难知道哪些方法有效。为了解决这个问题,在2020年初,Verena的研究人员使用了对哪些蝙蝠物种可能携带β冠状病毒的预测作为一个案例研究8。他们创建了八个统计模型,并使用它们生成了一份疑似宿主名单。在接下来的16个月里,发现了47个新的蝙蝠宿主。当研究人员将这些宿主与他们的预测进行比较时,他们发现一半的模型表现明显优于偶然情况。这些模型包括物种的寿命或体型等特征。其他四个模型没有考虑这些特征,表现不佳。
数据发展
任何人工智能(AI)算法从根本上都受到其输入数据的限制。“当算法在大量高质量数据上进行训练时,人工智能才能发挥作用,”索耶说。“但每年只发生少量溢出事件,而且病毒数据往往是脏的,有很多信息缺失。”大多数研究人员都认为,目前的数据不足。“我们没有足够的高质量数据来做好预测工作,”马泽特说。
在某种程度上,建模依赖于科学家收集新的数据,但到目前为止,病毒发现工作的动机是风险最高的地方和情况等考虑因素。卡尔森说,建模人员真正需要的是旨在提高地理和分类覆盖率的抽样。为模型提供更多此类数据会改变可以提出的问题的范围。“有了100万个数据点,你可以展示森林砍伐如何增加蝙蝠的病毒流行率,”卡尔森说。“有了万亿个数据点,你就可以像天气一样预测溢出。”
要接近这个目标,就需要全球合作,以开放数据共享为常态,并制定每个人都遵守的数据标准。实现这一目标的障碍更多的是政治、文化和伦理方面的,而不是科学方面的。例如,围绕出版物的学术激励机制是快速数据共享的障碍。保证共享基因数据的国家从中受益也至关重要。“这是关键问题,解决这个问题需要建立信任,”奥利瓦尔说。“确保你给予回报,不仅是疫苗,还有培训、能力建设和论文的共同署名。”
《名古屋议定书》是一项于2014年生效的国际条约,它确立了各国对自然资源(包括生物样本)的主权,并允许它们要求以利益分享协议作为回报,以获取此类样本。然而,一些实验室现在可以仅使用基因测序数据合成病原体或开始开发疫苗。“我们没有在国际法中建立任何处理序列数据的东西,”卡尔森说。“《名古屋议定书》不是为那个世界制定的。”类似的问题可能有一天会适用于人畜共患病风险预测。“我们正在使用全球南方研究人员收集的数据,”卡尔森说。“关于获取这些数据并开发一项技术意味着什么,存在合理的问题。”
预测和准备
为了使建模产生现实世界的影响,它必须产生公开可用的工具,以提供可操作的、与当地相关的信息。建模还需要更好地与实验工作相结合,以探究病原体的特征。正如模型可以标记候选病毒以供进一步研究一样,这些研究也可能产生可用于验证和改进模型的信息。然而,跨学科交流目前受到限制。“这些社群彼此之间不怎么交谈,甚至不怎么阅读彼此的论文,”索耶说。
建模人员还需要清楚地传达其工作中固有的不确定性,以及他们所说的预测的含义,这样他们就不会过分夸大其好处。“没有人说我们将准确预测下一次大流行发生的时间、地点和物种,”奥利瓦尔说。研究人员正在处理概率问题,意想不到的事情可能会发生,而且确实会发生。
即使在最佳状态下,预测工具也无法完全阻止疫情爆发。“我绝对不认为我们应该将世界的安全寄托在这些模型上,”卡尔森说。但是,除了改进的全球监测系统、有针对性的疫苗开发和在全球范围内建设医疗保健能力的努力之外,它们的价值是显而易见的。“它们让我们做两件事:了解我们周围发生的事情并确定优先事项,”卡尔森说。最终,这可能有助于降低大流行的频率。“我们可以更好地预防其中一些大流行,”卡尔森说。“但这需要我们更好地做好我们正在做的事情。”
本文是Nature Outlook: Pandemic Preparedness的一部分,这是一份编辑上独立的增刊,由第三方资助制作。关于此内容。
参考文献
Carlson, C. J. et al. Phil. Trans. R. Soc. Lond. B 376, 20200358 (2021).
Anthony, S. J. et al. Virus Evol. 3, vex012 (2017).
Olival, K. et al. Nature 546, 646–650 (2017).
Carroll, D. et al. Science 359, 872–874 (2018).
Wille, M., Geoghegan, J. L. & Holmes, E. C. PLoS Biol. 19, e3001135 (2021).
Mollentze, N., Babayan, S. A. & Streicker, D. G. PLoS Biol. 19, e3001390 (2021).
Poisot, T. et al. Preprint at https://arxiv.org/abs/2105.14973 (2022).
Becker, D. J. Lancet Microbe 3, E625–E637 (2022).