本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
大数据将要彻底变革科学并帮助我们创造一个更美好的世界吗?根据目前的情况来看,并非如此。
请允许我先回顾一下。我最近在英国海伊昂怀市举办的“光如何进入”音乐哲学节上发表演讲。节日主办方将我安置在一栋名为布兰普顿大宅的梦幻般的豪宅中,在那里我与其他节日演讲者一起度过时光,如物理学家乔治·埃利斯、卡洛·罗韦利、卡洛斯·弗伦克和塔拉·希尔斯;生物学家鲁珀特·谢尔德雷克;精神病学家大卫·纳特;以及记者科林·塔奇和戴维·马龙。(我希望尽快发布与埃利斯和谢尔德雷克的问答。)
一天下午,我与记者肯尼斯·库基耶、安吉拉·塞尼和社会学家劳瑞·泰勒一起参加了一场关于大数据的公开辩论。节日宣传册对我们的会议进行了如下宣传:“在一个我们可以收集到难以想象数量的信息的时代,我们是否会用复杂的真实模式取代简化的理论?大数据是否会成为理论的终结?” 这些问题是由《经济学人》的数据编辑库基耶和牛津大学互联网治理教授维克托·迈尔-舍恩伯格在他们2013年的畅销书《大数据:一场将彻底改变我们的生活、工作和思考方式的革命》中提出的。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
在他们根据自己的书撰写的一篇文章中,他们写道:“大数据始于这样一个事实,即如今比以往任何时候都有更多的信息在传播,并且这些信息正在被用于非凡的新用途。大数据不同于互联网,尽管网络使得收集和共享数据变得容易得多。大数据不仅仅是关于通信:其理念是我们可以从大量信息中学习到当我们仅使用少量信息时无法理解的事物。”
他们最引人入胜的论断是,大数据将使我们能够在不一定理解问题的情况下解决问题。库基耶和迈尔-舍恩伯格写道,大数据将把研究人员的重点从“因果关系转移到相关性”。“这代表着一种转变,即不再总是试图理解世界运作方式背后的更深层原因,而是简单地了解现象之间的关联,并利用这种关联来完成事情。” 前《连线》杂志编辑克里斯·安德森在他的2008年文章《理论的终结》中也提出了类似的观点。
如果大数据意味着数字技术,我喜欢大数据。数字技术已经改变了记者和科学家收集、分析和传播信息的方式。有了我的MacBook Air,我可以足不出户就用谷歌搜索库基耶,并立即找到对他著作的书评——包括《纽约时报》经常挑剔的米奇科·角谷写的一篇出人意料的好评。
此外,库基耶说得对,科学仅仅通过揭示相关性就可以取得很大成就。半个多世纪前的流行病学研究表明,吸烟与癌症之间存在很强的相关性。我们仍然不完全理解吸烟如何导致癌症。尽管如此,相关性的发现还是促成了反吸烟运动,与我们在检测和治疗方面的所有进步相比,这些运动可以说在过去几十年中为降低癌症发病率做出了更大的贡献(正如我在最近的一篇文章中指出的那样)。
我也承认库基耶的观点,即理论会阻碍问题解决。例如,假设你是一名法官,正在考虑一名被判犯有谋杀罪的人是否会再次杀人。你可以请一位精神病学家或其他所谓的心理专家根据专家的个人心理范式做出预测。但你最好使用保险公司用来计算保单持有人的费率的方法;也就是说,只需查看与你的凶手背景相似的罪犯的累犯率即可。
尽管如此,库基耶和其他人对大数据的热情还是让我感到恼火,原因有几个。首先,他们的言辞让我想起了混沌及其后继学科复杂性领域产生的炒作,我在1996年的著作《科学的终结》中将这两个领域统称为“混沌复杂性”。这两个领域都承诺,借助更快的计算机和更复杂的软件,科学家可以解决那些被沉闷的旧还原论方法所阻碍的问题。一些混沌复杂性学家希望发现支配各种复杂现象“自组织”的深刻新原理——甚至可能是一种“反熵”力。
这些发现从未发生,库基耶和舍恩伯格设想的那些实际进步也从未发生。以遗传学为例。人类基因组计划在2003年完成,所用时间和资金都少于预期,这归功于计算机和其他技术的进步。从人类和其他生物体中提取和分析遗传数据的成本持续下降。
但是,所有这些进展产生的医学进步都令人失望地少。在撰写本文时,美国尚未批准任何基因疗法用于商业销售;欧洲仅批准了一种。抗癌战争已经失败,寻找支持复杂行为特征和障碍的特定基因的努力也失败了。
正如遗传学家沉浸在数据中一样,神经科学家也是如此。尽管扫描仪和其他工具的功能越来越强大,但神经科学家仍然无法确切解释大脑如何产生意识,或者为什么我们的意识经常如此糟糕地运作。托马斯·因塞尔是美国国立精神卫生研究所所长,他最近倡导彻底改革我们定义和诊断精神分裂症、抑郁症和其他精神疾病的方法。我们治疗这些疾病的方法也仍然非常原始。
2008年的经济崩溃为大数据提供了另一个现实检验。华尔街人士拥有最快的计算机、最复杂的软件和最大的数据库,但许多人未能预见到2008年的崩溃。大数据将使经济学和其他社会科学真正科学化——即精确和可预测——的希望目前仍然是一个幻想。
我假设——我希望——我们不断改进的信息技术有一天会在医学、社会科学和其他领域产生真正革命性的进步。但在那一天到来之前,让我们对大数据的炒作保持克制。