如何在数据洪流中找到意义

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点。


世界上所有的数据——而且数量正以惊人的速度增长——如果研究人员无法理解它们,就无法帮助他们解决重大问题。 这就是为什么哈佛大学和哈佛大学-麻省理工学院布罗德研究所的一个研究团队开发出分析数据挖掘软件的原因,该软件可以在数字的荒漠中找到意义的绿洲。 他们使用该软件找到了关于肥胖的社会经济影响、肠道细菌和棒球的见解。

该软件梳理出数据点(可能数百万个)之间的关系,并衡量这些连接的强度。 正如研究人员在12月16日出版的《科学》杂志上发表的一篇论文中报告的那样,今天使用的大多数数据挖掘工具要么可以找到数据之间的相关性,要么可以确定这些连接有多牢固——很少有工具可以两者兼顾。

论文的共同第一作者、哈佛-麻省理工学院健康科学与技术项目的研究生David Reshef说:“当我们开始这个项目时,我们想要一种非常简单的方式来总结这些数据集中的内容,询问这些数据集中哪些变量关联性最强。” “这是一个非常简单的问题,但事实证明它非常复杂,因为变量可以通过多种不同的方式关联,并且有各种方法可以找到不同的模式。”


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


David Reshef 与弟弟 Yakir Reshef、布罗德研究所副研究员 Pardis Sabeti 和哈佛大学计算机科学教授 Michael Mitzenmacher 合作,在来自世界卫生组织 (WHO) 及其合作伙伴的社会、经济、健康和政治数据上测试了该工具。 数据池很大,覆盖了 200 个国家,每个国家包含 357 个数据变量,包括家庭收入和肥胖。

该工具是研究人员称之为 MINE(基于最大信息量的非参数探索)的更大程序的一部分。 它检查了每种可能的变量组合(超过 60,000 种),以及按一个变量对另一个变量的统计依赖性强度(即一个变量与另一个变量的关联程度)排序的关系列表。

例如,一个已识别的关系是家庭收入与女性肥胖之间的关系。 从这种配对中,研究人员看到许多国家的数据都遵循抛物线曲线,肥胖率随收入而上升,但在收入达到一定水平后达到峰值并逐渐下降。 然而,在太平洋岛屿,女性肥胖是身份的象征,肥胖率遵循与世界其他国家完全不同的趋势,即使在低收入水平下也迅速攀升。

论文的共同第一作者、以色列魏茨曼科学研究所的富布赖特学者 Yakir Reshef 说,这个想法是使用 MINE 来产生以前没有人想到要寻找的新想法和联系。 他补充说:“该项目的跨学科性质向我们展示了这项工作的广泛应用。 无论是全球健康数据、基因组数据还是互联网搜索统计数据——在某种程度上,它们都是相同的。” 研究人员在他们的网站视频中更详细地解释了他们的工作,该视频与他们的论文一起发布。

在另一项测试中,他们使用了哈佛同事 Peter Turnbaugh 收集的近 6,700 条与生活在肠道中的微生物相关的数据。 该软件进行了超过 2200 万次比较,并缩小到数百个以前未观察到的感兴趣的模式。

研究人员还在棒球上测试了该软件。 他们发现,与球员薪水最相关的统计数据是安打数、垒打数和一个综合统计数据,该统计数据反映了球员为一个球队创造了多少得分。 在 2008 赛季,坦帕湾魔鬼鱼队、亚特兰大勇士队和现任世界冠军圣路易斯红雀队(毫不奇怪)被证明与他们阵容中“表现超出预期”的球员数量相比,拥有最少数量的高薪球员。 可以预见的是,纽约洋基队排名垫底。 当你的工资总额是棒球界最高的时候,找到表现超出预期的球员并不容易。

照片:兄弟 David Reshef(左二)和 Yakir Reshef(右)在哈佛大学工程与应用科学学院的顾问 Michael Mitzenmacher(左)和布罗德研究所的 Pardis Sabeti(右二)的指导下开发了 MIC。 图片由 ChieYu Lin 提供

© . All rights reserved.