大规模谷歌资助的 COVID 数据库将追踪变异和免疫

开放存储库将免费提供超过 1.6 亿个数据点,其中包含关于个体感染的详细信息

A nurse checks the temperature of a woman at the airport.

2020 年 7 月 3 日,在哈瓦那何塞·马蒂国际机场,一名护士在 COVID-19 大流行期间为一名妇女检查体温。

今天启动的一个庞大的国际数据库将帮助流行病学家解答有关 SARS-CoV-2 冠状病毒的迫切问题,例如新变异在人群中传播的速度、疫苗是否能预防这些变异以及对 COVID-19 的免疫力能持续多久。

与约翰·霍普金斯大学在马里兰州巴尔的摩市维护的 全球 COVID-19 仪表板 以及其他流行的追踪器(列出 COVID-19 感染和死亡总数)不同,名为 Global.health 的数据科学倡议的新存储库在一个地方收集了关于个体病例的前所未有的匿名信息。对于每个人,数据库包含多达 40 个相关变量,例如他们首次出现 COVID-19 症状的日期、他们收到阳性检测结果的日期以及他们的旅行史。

约翰·霍普金斯大学的流行病学家 Caitlin Rivers 是该项目的一部分,她说,像这样的个体层面数据为流行病学家提供了确定疾病如何传播的线索。“当我们了解疫情的严重性时,往往为时已晚,”她说。“数据可以闭环,使过程更快。”

研究人员希望该数据库将帮助他们在未来几个月监测冠状病毒变异和疫苗,并为未来流行病中实时数据追踪提供模板。

该存储库由美国和欧洲 7 所学术机构的 21 位研究人员创建,并获得了谷歌和洛克菲勒基金会的技术和资金支持。到目前为止,该团队已收集了来自约 150 个国家/地区的 2400 万个病例的信息。

Rivers 补充说,像这样的数据库在 SARS-CoV-2 爆发早期会很有用。流行病学家可能已经能够证实,即使在世界卫生组织去年 1 月 23 日确认之前,冠状病毒在中国也经常在人与人之间传播——这可能有助于更快地遏制疫情。

几位科学家表示,一个全面的、国际化的、公开可用的存储库的出现将为多个领域的研究提供动力。“这真的很好,而且需要做,”路易斯安那州新奥尔良杜兰大学的病毒学家 Robert Garry 说。“因为太难做了,所以没有类似的东西存在。”

集体努力

每当疫情爆发时,流行病学家都会从报纸文章和卫生机构收集和整理信息片段到自制的电子表格中。关于一个人的症状、年龄、他们可能如何被感染等等的详细信息,可以帮助研究人员确定疾病的原因、传染性和死亡率。

到 2020 年 1 月中旬,流行病学家正在对 SARS-CoV-2 做这件事——但尚未就他们的发现达成共识。 东北大学波士顿分校新兴流行病实验室主任、流行病学家 Sam Scarpino 发推文说证据 并未证实持续的人际传播。 他记得 Rivers 在一条私信中回复他:“她说,‘伙计,我认为你错了。’”

数据仍然模糊不清。但牛津大学的另一位流行病学家 Moritz Kraemer 创建并与社区分享了他自己的 Google 电子表格。 Scarpino 分析了这些数字, 并承认  Rivers 是对的。

很快,数十位流行病学家开始将来自世界各地病例的信息添加到该电子表格中。与此同时,他们和其他人正在 分析 。 例如,伦敦卫生与热带医学院的流行病学家 Adam Kucharski 和他的同事使用这些数据来估计,根据部分出国旅行并确诊感染的人数,1 月份中国武汉出现 COVID-19 症状的人数约为卫生官员确认人数的十倍。

在超过约 100,000 个病例后,原始电子表格过载。 4 月,该团队获得了谷歌和这家硅谷公司的慈善机构 Google.org 的工程师和产品开发人员的帮助。 他们一起编写了计算机代码,可以自动从大约 60 个政府以标准化格式上传每日冠状病毒数据,这些代码可以删除重复条目,并使用算法将来自世界各地的信息合并到单个基于云的存储库中。

优先考虑隐私

任何人都可以注册访问最新版本 Global.health 数据库上多达 8 GB 的匿名数据。 Scarpino 说,在收集的 2400 万个病例中,一半病例的数据包含十几个变量,约 10% 的病例数据更多。 目前,该网站的数据可视化仅限于显示团队收集的数据的地图。 Scarpino 指出,信息图表并非重点,因为他们优先考虑标准化数据收集和解决隐私问题,以便世界各地的人们可以向数据库添加数据。 该项目的架构师咨询了法律和伦理专家,了解如何安全地处理和共享有关个人的匿名数据,他说,这些数据通常受到政府机构、大学和医院的严密保护。

瑞士伯尔尼大学的流行病学家 Julien Riou 期待探索该数据库。 到目前为止,他的大部分 COVID-19 工作都基于来自瑞士队列的数据,但他表示,一个深入的国际数据集可以为基本问题提供更好的答案,例如世界各国真实的感染率。“更多的数据意味着我们可以更接近真相,”他说。 其他研究人员也同意,并补充说,关于一个人的疫苗接种状况或他们是否感染了冠状病毒变异的信息可能有助于在未来几个月回答有关免疫力的紧迫科学问题。

Kucharski 欢迎为该项目提供资金。“许多数据库都是众包的,但如果你只依赖志愿者,通常是不可持续的,”他说。

Scarpino 希望最终将 COVID-19 数据库扩展到一个适应性平台,以调查其他疾病——尤其是下一次突发流行病。 但他说,这样做需要一家公司、非营利组织或其他场所来推进该项目——这是他从以前使用过的软件中学到的教训,该软件最初追踪叙利亚的健康数据,但在出售给一家数据公司后,现在已在十多个国家/地区使用。 他说,“这不能昙花一现。”

本文经许可转载,并于 2021 年 2 月 24 日首次发布

© . All rights reserved.