从大嘴巴中拯救大数据

那些谴责大数据的人应该尝试做点什么

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。

SA论坛 是科学和技术领域专家就热点问题发表的特邀文章。

贬低大数据已经成为一种时尚。最近几周，《纽约时报》、《金融时报》、《连线》和其他媒体都发表文章抨击这项新技术运动。公平地说，许多批评都有道理：关于大数据有很多炒作，重要的是不要夸大我们对它所能做的事情的期望。

但这些炒作很少来自真正使用大型数据集的人。相反，它来自那些将“大数据”视为流行语和营销机会的人——顾问、活动组织者和寻找 15 分钟成名机会的投机学术界人士。

然而，最近的大部分批评都是软弱和误导的。反对者一直在攻击稻草人，专注于最坏的做法、事后失败和二手资料。共同的主题在很大程度上是显而易见的：“相关性并不意味着因果关系”和“数据存在偏差”。

大数据批评者犯了三个重要错误

首先，他们误解了大数据，将其狭隘地定义为社会科学假设检验的失败革命。这样做，他们忽略了大数据取得重大进展的领域，例如数据丰富的网站、信息可视化和机器学习。如果说有一群大数据从业者是批评者应该崇拜的，那就是构建社交媒体网站的大数据工程师，他们的陈词滥调在那里传播。构建一个数据丰富的网站，如 Facebook、YouTube、Vimeo 或 Twitter，极具挑战性。这些网站之所以成为可能，是因为过去五年中悄然取得的进步，包括数据库技术和 Web 开发框架的改进。

大数据也为机器学习和计算机视觉做出了贡献。由于大数据，Facebook 算法现在匹配人脸的准确率几乎与人类一样高。

批评者也忽略了大数据在计算设计、数据新闻和新的艺术表现形式的普及中所起的作用。计算艺术家、记者和设计师——那些聚集在像这样的会议上的人

Eyeo——正在使用大量数据为我们提供与我们在纸上体验过的任何东西都不同的在线体验。如果我们跳出假设检验的框架，我们会发现大数据做出了巨大的贡献。

批评者经常犯的第二个错误是将原型的局限性与致命缺陷混淆。这是我经常经历的事情。例如，在Place Pulse——我与我在麻省理工学院媒体实验室的团队创建的一个项目——我们使用了谷歌街景图像和众包视觉调查来绘制人们对城市安全和财富的感知。最初的方法充满了我们在论文中如实承认的局限性。谷歌街景图像是在任意时间拍摄的，并从汽车的角度展示了城市。城市边界也是任意的。然而，为了克服这些局限性，我们需要第一个数据集。制作 Place Pulse 的第一个有限版本是制作工作原型过程中的必要部分。

自我们发布 Place Pulse 的第一个数据集以来已经过去一年了。现在，由于我们专注于“制作”，我们拥有计算机视觉和机器学习算法，我们可以用它来纠正一些容易发现的失真。制作使我们能够纠正一天中的时间并动态定义城市边界。此外，我们正在收集新数据，以将该方法扩展到新的地理边界。

那些不理解制作过程是迭代的人，有可能会过于急于谴责有前景的技术。 1920 年，《纽约时报》发表了一项预测，认为火箭永远无法离开大气层。关于汽车或最近关于 iPhone 的市场份额也做出了类似的错误预测。 1969 年，《泰晤士报》不得不撤回他们 1920 年的说法。在 2069 年需要发表哪些类似的撤回声明？

最后，怀疑者过分依赖二手资料。例如，他们把克里斯·安德森在 2008 年《连线》杂志上发表的一篇文章当成了出气筒，该文章将大数据定义为“理论的终结”。其他人则批评项目存在其创建者从未做出的声明。例如，几周前，加里·马库斯和欧内斯特·戴维斯在《泰晤士报》上发表了一篇关于大数据的文章。他们在那里写到了我组的另一个项目Pantheon，该项目旨在收集、可视化和分析有关历史文化产品的数据。马库斯和戴维斯写道，万神殿“暗示了一种具有误导性的科学精确度”。作为该项目的作者，我一直找不到我提出过这种说法的地方。万神殿的方法部分明确指出：“万神殿始终——通过构建——是一种不完整的资源。”该部分包含了一长串的局限性和警告，以及“我们将此数据集狭义地解释为 2013 年 5 月在维基百科中历史人物的多语言表达中出现的全球文化产品的观点。”

争吵很容易，但没有多大帮助。所以我邀请大数据的批评者以身作则。停止撰写评论文章，开始开发改进现有技术的工具。我们非常感谢他们。我们需要的是值得模仿和我们可以借鉴的项目，而不是诸如“相关性并不意味着因果关系”之类显而易见的建议。毕竟，真正的进步不是写出来的，而是做出来的。