社交媒体帖子和在线搜索掌握着关于疫情传播的重要线索

此类数据提供有价值的信息,可能有助于追踪新型冠状病毒,但它们存在出错风险并引发隐私担忧

社交媒体帖子和在线搜索可以提供关于疾病传播地点的线索。

早在世界卫生组织首次警告在中国武汉出现一种神秘的新型呼吸道疾病近一周前,波士顿的一个全球疾病监测系统 HealthMap 的侦探团队就从一篇在线新闻报道中捕捉到了关于疫情爆发的数字线索。同一天,12月30日,另一个数字疾病检测组织 ProMED 注意到中国微博网站“微博”上关于不明原因肺炎的在线讨论。正如研究人员后来报道的那样,社交媒体平台微信上新流行的关键词包括“非典”、“呼吸急促”和“腹泻”。

这些警报揭示了一种巨大但有风险的资源的希望:来自世界各地人们的推文大小的提示,他们在线报告自己的健康状况并宣泄恐惧。一些研究人员呼吁公共卫生官员更多地利用这个虚拟的宝藏数据,尤其是在当前新型冠状病毒迅速传播的情况下。

“我们正处于一个前所未有的机遇的风口浪尖,可以使用数字数据来追踪、预测和预防人群中的全球疾病负担,”北卡罗来纳大学吉林斯全球公共卫生学院的流行病学家 Allison Aiello 和两位研究生在 2020 年《公共卫生年度评论》中写道。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的有影响力的故事。


“社交媒体博客、聊天室和当地新闻报道中存在大量数据,这些数据每天都为我们提供有关疾病爆发的线索,”波士顿儿童医院首席创新官兼哈佛医学院的 John Brownstein 最近告诉 CNN Headline News。Brownstein 称这些数据为“数字面包屑”,它们是新兴的数字流行病学领域的重要原始材料。他于 2006 年共同创立的 HealthMap 是该领域的几个领先机构之一。

HealthMap 的第一个重大成功案例发生在 2009 年 H1N1(猪流感)大流行期间,当时它使用了包括西班牙语在线新闻报道在内的来源,以帮助早期发现墨西哥韦拉克鲁斯的一种不明呼吸道疾病。五年后,它利用世卫组织的 Twitter 订阅源和其他来源来追踪埃博拉病毒的传播,该病毒最终在西非导致超过 11,000 人死亡

世界卫生组织现在经常使用 HealthMap、ProMED 和类似的系统来监测传染病爆发,并为临床医生、官员和公众提供信息。然而,与传统方法相比,大数据疾病检测仍处于起步阶段,特别是社交媒体成分,尚未在预测传染病可能在何处以及如何爆发方面做出任何重大贡献。

到目前为止,至少 HealthMap 仍然没有过多依赖社交媒体;相反,它主要追踪来自在线新闻来源和政府的报告,同时包括一些来自公共卫生专业人员的社交媒体帖子。此外,HealthMap 呼吁志愿者每周向其众包疾病追踪平台 Flu Near You 提交数据。3 月下旬,它推出了一个新网站 Covid Near You,专门关注 Covid-19 症状和检测。

尽管如此,Brownstein 和其他专家认为,数字流行病学的两个关键优势——速度和数量——可能会越来越多地帮助卫生官员快速且廉价地发现疫情爆发。与此同时,来自社交媒体的大量数字数据也带来了足够的准确性和隐私挑战,使其成为“双刃剑”,伦敦大学学院电子健康研究员 Patty Kostkova 如此说道。这是一个现在很常见的故事:技术进步正在超越我们保证其质量和安全的能力。

最直接的挑战是确保准确。“实际上,从社交媒体获得有用的前瞻性数据非常困难,”东北大学计算机科学家 Clark Freifeld 说,他与 Brownstein 共同创立了 HealthMap。他说,最大的挑战之一是,一旦某种疾病成为新闻,大多数后续媒体查询和帖子都是对该新闻的反应,而不是更多新闻即将到来的指标。

例如,2012 年,谷歌流感趋势根据谷歌搜索中与流感相关的术语使用量的增加,估计冬季流感病例将大幅增加。但实际的峰值大约只有一半,这可能是因为用户的搜索反映了流感爆发的新闻,而不是实际的疾病。

虚假信号是另一个严重的问题。研究人员注意到 2007 年谷歌对“霍乱”一词的搜索量激增。但原因并非疾病爆发;相反,事实证明是奥普拉·温弗瑞为她的读书俱乐部选择了小说《霍乱时期的爱情》。Aiello 说,虽然这个特殊案例并没有误导任何公共卫生官员,但它是一个生动的反应性和不相关的“噪音”的例子。

HealthMap 试图通过使用人工智能来过滤掉重复和不相关的信息来解决这个问题。“我们有一个包含数百万篇文章和与疾病爆发相关的内容的数据库,”Freifeld 说。“我们会手动标记例如 10 万个实际爆发的例子,并将它们与不相关的东西进行对比,例如第七局的本垒打‘爆发’。这就是系统学习什么有用和什么没用的方式。”

数字面包屑可能误导专家的一个主要原因是它们可能会遗漏很大一部分人口。大约 22% 的美国成年人使用 Twitter,但这不是一个随机样本。美国 Twitter 用户主要比其他美国人更富有、更年轻、受过更好的教育并且更有可能成为民主党人。更重要的是,大多数 Twitter 用户并没有发太多推文:所有美国成年用户约 80% 的推文来自最多产的 10%。考虑到老年人——至少根据最初的假设——更有可能患上重病,Twitter 年轻化的用户群体尤其成问题。因此,通过推文监测健康状况可能会忽略我们中最脆弱的人群。

更广泛地说,社交媒体因传播虚假信息而臭名昭著,在传染病的情况下,这可能会造成致命的后果。公共卫生研究人员表示,在社交媒体噪音中寻找信号时,这始终是一种危险。公共卫生依赖于公众对公共卫生官员的信任,但如果政府发布错误信息,这种信任可能会迅速瓦解。

除了准确性问题外,数字流行病学还可能增加对互联网用户隐私的威胁。与欧洲不同,美国缺乏保护社交媒体隐私的全面法律。谷歌和 Facebook 等平台经常将汇总的用户信息授权给广告商,广告商可以根据搜索内容和“点赞”来定向投放广告。Freifeld 说,将此类数据用于健康监测可能会增加隐私滥用的风险,尤其是在公共卫生问题与保密性冲突时。

隐私倡导者已经对白宫和美国疾病控制与预防中心最近为扩大他们访问美国人手机数据以追踪他们在疫情期间的位置的努力发出警报。联邦卫生官员希望纳入匿名的汇总数据,以追踪病毒的传播并检查对新的“社交距离”规则的遵守情况。

在线公共卫生数据的日益增长的存储库在本月刚刚向公众开放了一些。3 月 17 日,Facebook 最近收购的社交媒体监测网站 CrowdTangle 宣布,它已推出一项新功能,允许用户(包括新闻媒体组织、公共卫生官员和研究人员)跨 Facebook、Instagram 和 Reddit 等网站追踪社交趋势。该公司同时推出了一个公开可用的流媒体中心,有限的实时显示了关于新型冠状病毒引起的 Covid-19 感染的官方信息和社交媒体帖子。社交媒体帖子仅来自公共帐户,而非私人帐户。

自愿报告系统可以避免一些(尽管不是全部)常规数字流行病学的偏见。Flu Near You 于 2011 年推出,使用匿名的众包模型为公共卫生官员和研究人员收集数据。

一个有些类似的项目是 FoodBorne Chicago,这是一个基于 Twitter 的监测系统,用于监测食物传播疾病的投诉。它位于芝加哥公共卫生部,使用机器学习算法追踪带有关键词“食物中毒”的推文。当当地居民输入这些词时,该网站会回复一个链接,其中包含一个表格,用于提供详细信息,收集可能永远不会被报告的数据。

在过去的七年中,美国疾控中心通过管理一项名为 FluSight 的年度竞赛,涉足疾病的数字检测领域,学术界和工业界的研究人员在竞赛中尝试预测流感季节的时间和强度。美国疾控中心要求参赛者在其预测中使用某种数字数据。

与此同时,研究人员越来越对纳入来自更直接的健康和疾病测量数据的前景感到兴奋。智能可穿戴健康追踪监测器提供关于心率、步数和睡眠质量的持续数据流。

3 月 25 日,斯克里普斯研究所转化科学研究所的流行病学家 Jennifer Radin 是最近一项关于 Fitbit 在疾病检测中可能发挥“至关重要”作用的研究的主要作者,她呼吁使用任何类型的智能手表或活动追踪器的美国成年志愿者通过下载 MyDataHelps 移动应用程序与研究人员分享他们的健康数据。Radin 告诉 Knowable,研究人员希望使用这些数据来识别可能表明疾病的静息心率变化。虽然她承认心率加快可能仅仅是由观看新闻引起的,但她说感觉不舒服的志愿者也可能在该应用程序上列出其他症状。

在过去的八年中,一家名为 Kinsa 的旧金山初创公司一直在系统地收集此类实时健康数据,最近已售出并赠送了超过 100 万个联网温度计。俄勒冈州立大学科学家 Benjamin Dalziel 正在与 Kinsa 资助的研究合作,他说该系统可以准确地追踪流感,比美国疾控中心的预测提前两周,并且可能还可以追踪 Covid-19。3 月 18 日,它开始在其“健康天气地图” www.healthweather.us 上发布来自其选择加入系统关于“非典型发烧”集群的新数据。

Dalziel 和 Kinsa 公司领导人确信温度计可以在这次全球紧急事件中发挥作用。Dalziel 说,使用这些和其他类型的系统来实时监测症状“是未来,无论这听起来多么宏大……发烧是急性呼吸道感染的关键指标。它衡量的是与疾病直接相关的东西。虽然我认为从 Twitter 中提取信息已经完成了出色的工作,但温度计读数显然比推文更具优势。”*

其他专家也对 Kinsa 的进展感到兴奋。“鉴于缺乏 Covid 特异性检测试剂盒,发烧监测是一个好主意,”HealthMap 的 Freifeld 说。

冠状病毒紧急情况显然正在加速人们对数字流行病学的兴趣。然而,Freifeld 和其他专家一致认为,到目前为止,该领域的希望仍然更多地是作为传统监测的辅助手段,而不是替代品。

正如北卡罗来纳州的 Aiello 承认的那样,至少目前是这样:“我们需要用传统的实地数据来验证它。”

本文最初发表在 Knowable Magazine 上,Knowable Magazine 是 Annual Reviews 的一项独立新闻事业。注册新闻通讯

在此处阅读更多关于冠状病毒爆发的信息

*编者注(2020 年 3 月 31 日):我们在 Knowable 的合作伙伴已更新此段落,以澄清 Benjamin Dalziel 的观点。

© . All rights reserved.