关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。购买订阅将有助于确保关于塑造当今世界的发现和思想的具有影响力的故事能够继续存在。
卫生保健官员和救援人员试图追踪埃博拉病毒病疫情的进展,该疫情迄今已夺去2800多人的生命 (pdf),他们已经开始严重依赖少数几个疾病监测网站,这些网站充当信息处理的关键枢纽。不同的网站功能略有不同,但大多数情况下,它们的存在是为了管理由无数新闻文章、社交媒体信息、医疗报告和电子邮件发送的现场报告产生的数据洪流。
这些网站结合使用人工智能软件和人类专业知识来跟踪、报告和绘制与公共卫生危机相关的信息,其速度通常比政府部门和国际监督机构的反应速度更快。一个名为HealthMap的网站使用这种混合模式,在世界卫生组织(WHO)发布第一份报告的几天前,就发现了埃博拉疫情的早期迹象。
《大众科学》深度报道,“埃博拉:你需要知道什么”
自3月14日起,HealthMap的自动文本处理算法一直在跟踪埃博拉疫情,当时几内亚新闻网站Africaguinee.com报道了该国马森塔省出现的“奇怪发烧”,其特征是“肛门和鼻出血”。几天之内,HealthMap就注意到标准数字新闻网站的一份报告,该报告表明“神秘的出血热”已经夺去了几十人的生命。几内亚卫生部负责人表示,正在考虑埃博拉病毒是罪魁祸首,尽管这将是该国首次记录在案的埃博拉病例。当局很快将病因缩小到埃博拉或一种相关的疾病,即马尔堡出血热。到3月22日,尼日利亚的一个新闻网站以一篇将“埃博拉”和“爆发”这两个词放在一起的文章引起了HealthMap的注意。
绘制帮助 儿童医院信息学项目于2006年启动了HealthMap,旨在利用越来越多的数字资源(互联网、RSS订阅和电子邮件列表等)在谷歌地图上绘制全球新兴疾病的信息。HealthMap标记了当前的埃博拉疫情,原因有很多,特别是它从几内亚蔓延到利比里亚、塞拉利昂和几个其他邻国。
HealthMap会自动执行数据采集、过滤和信息分类,使信息从源头流向网页,而无需任何人工干预。与此同时,该网站的传染病和公共卫生专家会对这些内容进行审查,以纠正和改进自动分类,儿童医院信息学项目的研究软件开发人员克拉克·弗莱菲尔德说。例如,分析师会确保网站发布的感染和死亡人数的运行统计数据尽可能准确,这是软件难以做到的,因为不同的信息来源在不同的时间范围内报告的数字不同。“我们拥有使[发布信息]更容易的技术框架,”他补充说,“但我们的方法始终是人机协作模式。”
尽管这并不是HealthMap报道的第一次重大健康危机——2009年H1N1流感大流行是其最大规模的努力之一——但埃博拉疫情已将该网站推向了新的方向,以努力为包括世卫组织、联合国和美国疾病控制与预防中心在内的各种机构提供信息。HealthMap现在每小时可以处理来自15种不同语言的数万个网页的数据。周一,HealthMap首次尝试预测疾病传播,发布了未来几个月埃博拉疫情可能的发展趋势预测。
前瞻性
HealthMap的短期疫情预测建模工具可以按国家/地区过滤数据,并考虑不同的控制方案。该工具本身基于多伦多医疗和公共卫生研究人员团队开发的模型构建,该模型预测,到10月26日,几内亚、利比里亚和塞拉利昂的埃博拉病例最坏情况为14,176例,HealthMap可能会在未来尝试其他方法,HealthMap联合创始人、哈佛医学院儿科副教授约翰·布朗斯坦说。
多伦多模型是一种数学方法,用于跟踪疫情的扩张和收缩(称为发生率衰减和指数调整(IDEA)),它考虑了可能减缓疫情增长的因素。这些因素可能包括对埃博拉受害者进行更充分的隔离或国际援助的到来。研究人员表示,IDEA非常适合对疫情增长和公共卫生干预措施进行快速评估。“这更像是一种时间序列方法,我们正在应用建模来推导出未来病例的估计值,”布朗斯坦说。
HealthMap用于跟踪疫情进展的机器学习算法将检索到的数据分配到五个类别之一:突发新闻、关于可能爆发疫情的警告、过去疫情的参考资料、研究和其他背景信息,以及与任何疫情无关的事件。弗莱菲尔德说,这些过滤器是“系统的关键组成部分,尤其是在我们看到围绕高度可见的疫情的大量数据时非常有用”。
疾病维基
该网站擅长自然语言处理,新兴疾病监测计划(ProMED)的创始人兼编辑拉里·马多夫说,ProMED是一个全球电子邮件列表,用于接收和总结有关疾病爆发的报告,也是HealthMap的第一个数据来源之一。“他们[能够]吸收我们的报告,并以合理的准确度将它们放在地图上,”他说,并补充说,HealthMap帮助自动化了ProMED自1994年以来一直在做的事情。
HealthMap的算法主要根据相同材料在多个来源中出现的频率来衡量信息的重要性,尽管它不会根据来源本身(无论是《纽约时报》的文章还是当地卫生部的公告)对信息进行评级。弗莱菲尔德说,该网站不就其来源的可信度“站队”。相反,他补充说,它遵循的逻辑是,重大事件往往会收到来自多个来源的多份报告。
几个月前,当埃博拉疫情明显恶化且不会很快得到控制时,HealthMap团队开发了一个时间线界面,以更好地组织和可视化其报告。“我们不确定有多少人会预测到情况会如此糟糕,”布朗斯坦说。自7月中旬上线以来,2014年埃博拉疫情时间线包括130多个条目,浏览量超过100万次。在2010年3月发表于ScientificAmerican.com的文章中,布朗斯坦将HealthMap描述为“几乎像是新兴传染病的维基百科”。马多夫说,HealthMap之所以奏效,是因为“它是一个以人为驱动但基于互联网的系统”,并补充说,“它一部分是社交网络,一部分是新闻服务。”
HealthMap并不是唯一的传染病监测网站。除了谷歌流感趋势等较新的网站外,还有一些更成熟的网站,如ProMED和全球公共卫生情报网络(GPHIN),GPHIN最初是由加拿大卫生部与世卫组织于1997年合作开发的。根据WebMD的Medscape网站的说法,GPHIN软件每15分钟从新闻源聚合器Al Bawaba和Factiva检索相关文章,具体基于该网站定期更新的特定搜索查询。除了软件选择的文章外,GPHIN数据库还由人工分析师提交的内容填充,他们会梳理开放访问的网站以搜索相关的公共卫生信息。
马多夫说,这些和其他疾病监测网站提供了一个至关重要的早期预警系统,可以在信息可用时立即将其呈现给公众。回顾上世纪80年代人们开始意识到艾滋病的时候,这种疾病的起源可以追溯到20或30年前,当时它传播到美国并引起了全世界的关注,他说,并补充说,“现在很难相信会发生这种情况。”