本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
科技公司——例如Facebook、谷歌和IBM——都迅速吹捧从移动设备、网络搜索、公民科学项目和传感器网络中收集的“大数据”所具有的改变世界的力量。无论是在线购物趋势还是癌症研究,以前从未有如此多的数据涵盖如此多的兴趣领域。然而,一些科学家警告说,尤其是在数据方面,越大不一定越好。
当信息从不同来源提取时,往往缺乏背景信息,从而导致值得怀疑的结论。例如,自谷歌在2008年推出Google Flu Trends (GFT) 服务以来,它有时在准确衡量流感水平方面遇到了困难。一组研究人员在周五发表于《科学》杂志上的政策论坛中解释了这个大数据工具的不足之处——以及它具有更大潜力的地方。
谷歌设计的流感数据聚合器旨在根据与流感相关活动相关的谷歌搜索词条,提供全球流感病例的实时监测。尽管取得了一些成功,但GFT在过去两年中高估了美国流感高峰病例。研究人员表示,GFT高估了2012-2013年流感季的流感患病率,以及2011-2012年的实际流感水平,幅度超过50%。这些研究人员来自休斯顿大学、东北大学和哈佛大学。此外,从2011年8月到2013年9月,GFT在108周中的100周内都高估了流感患病率。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
《自然》杂志在2013年2月的一篇新闻报道中指出,GFT预测的因流感样疾病就诊的医生次数是疾病控制与预防中心 (CDC) 的两倍多,而CDC的估计是基于美国多家实验室的监测报告。(《大众科学》是自然出版集团的一部分。)
《自然》杂志报道,谷歌的软件“依赖于数据挖掘谷歌搜索引擎中输入的与流感相关的搜索词条记录,并结合计算机建模”。尽管撰写本周《科学》杂志政策论坛的研究人员引用了GFT多次失误的例子,《自然》杂志指出,GFT的总体工作成果“几乎与CDC自身随时间推移的监测数据完全一致——而且它比CDC提前几天交付数据”。
谷歌自己在去年10月的一份研究中得出结论,其流感算法(以及最近推出的Google Dengue Trends)在2012-2013年美国流感季“容易受到媒体报道增加的影响”。一位谷歌发言人表示:“我们每年都会审查流感趋势模型,以确定如何改进——我们的最新更新是在2013-2014年流感季之前于2013年10月进行的。” “我们欢迎关于如何继续改进流感趋势以帮助估计流感水平的反馈。”
政策论坛的研究人员认识到,流感相关在线资源的流量增加可能是造成问题的原因之一,但他们质疑“媒体引发的恐慌”是否完全解释了“为什么GFT连续[两年多]大幅度漏报高值。一个更可能的原因是谷歌搜索算法本身的变化。”
这是研究人员论点的关键,他们认为两个问题对GFT的错误贡献更大:算法动态和“大数据傲慢”。
研究人员表示:“当GFT完全错过了非季节性的2009年甲型H1N1流感大流行时,[GFT] 抛弃特殊搜索词条的临时方法失败了。” “简而言之,最初版本的GFT部分是流感检测器,部分是冬季检测器。”
大数据傲慢是“通常隐含的假设,即大数据可以替代而不是补充传统的数据收集和分析”。研究人员指出,许多大数据项目的错误在于,它们并非基于旨在产生可用于科学分析的有效且可靠数据的技术。数据来自智能手机、搜索结果和社交网络等来源,而不是经过仔细审查的参与者和科学仪器。
研究人员承认,其他研究表明了大数据的价值,但“我们远未达到它们可以取代更多传统方法或理论的程度。”
他们指出,“通过将GFT与其他近乎实时的健康数据相结合,可以获得更大的价值。” 例如,“通过结合GFT和滞后的CDC数据,以及动态地重新校准GFT,我们可以大大提高GFT或CDC单独的性能。” 大数据同样可以成为更好地了解未知领域的有效工具,例如在CDC数据效果不佳的领域,例如在非常地方的层面上呈现流感患病率。
研究人员认为,项目还可以通过提高他人复制它们的能力而从更大的透明度中受益。谷歌、Twitter和Facebook等平台总是在重新设计其软件,而基于在某个时间收集的数据进行的研究是否可以用从早期或后期收集的数据重新完成,这仍然是一个悬而未决的问题。