去年夏天和秋天,希腊金融危机撕裂了全球经济的裂缝。该国积累了永远无法偿还的债务,面临着许多潜在的结果,所有结果都不尽如人意。削减开支的努力引发了雅典街头的骚乱,而违约的威胁则震动了全球金融市场。许多经济学家认为,希腊应该退出欧元区并使其货币贬值,理论上这将有助于经济增长。“不要搞错:有序地退出欧元区将是困难的,”纽约大学经济学家努里尔·鲁比尼在《金融时报》上写道。“但是,眼睁睁地看着希腊经济和社会的缓慢无序崩溃将会更糟。”
没有人确切知道这种情况会如何发展。人们担心,如果希腊放弃欧元,西班牙和意大利也可能效仿,从而削弱欧盟的中心纽带。《经济学人》杂志则认为,这场危机将“带来布鲁塞尔更多的财政政策控制,使欧元区变成一个政治上更加一体化的俱乐部。”这些后果将带来更深远的影响。进入欧盟的移民可能会将其旅行模式转移到新近变得负担得起的希腊。旅游业的下降可能会限制传染病的传播。贸易路线的改变可能会扰乱本土生态系统。问题本身很简单——希腊应该放弃欧元吗?——但潜在的后果是如此深远和复杂,以至于即使是世界上最聪明的人也发现自己无法掌握所有的排列组合。
正是诸如此类的问题促使苏黎世瑞士联邦理工学院的物理学家和社会学主席德克·海尔宾提出了一项耗资10亿欧元的计算系统,该系统将有效地充当世界的水晶球。海尔宾的系统不仅会模拟金融、政策或环境的某个领域。相反,它会一次模拟所有的一切——世界之中的世界——吐出决策者面临的最棘手问题的答案。这个项目的核心,地球生命模拟器,将尝试使用海量的数据流、复杂的算法以及尽可能多的硬件来模拟全球范围的系统——经济、政府、文化趋势、流行病、农业、技术发展等等。欧盟委员会对海尔宾的推介印象深刻,以至于将他的项目评为在获得10亿欧元竞赛中六个决赛入围者中的第一名。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
该系统是“大数据”兴起的最雄心勃勃的体现,许多科学家认为这一趋势堪比望远镜和显微镜的发明。指数级增长的数字化信息正在以让我们能够解决我们原本无法提出的问题的方式,将计算机科学、社会科学和生物学结合在一起,哈佛大学社会科学家和医学教授尼古拉斯·克里斯塔基斯说。例如,他指出了移动电话的普及,它创造了关于个人去向、他们购买的东西,甚至他们正在思考的东西的痕迹的海洋信息。将这些信息与其他类型的数据——基因组学、经济学、政治学等等——结合起来,许多专家认为我们正处于开启新的探究世界的风口浪尖。
“科学进步通常是由仪器驱动的,”东北大学计算机与信息科学学院副教授、海尔宾项目的支持者大卫·莱泽说。工具吸引任务,或者正如莱泽所说:“科学就像醉汉在灯柱下寻找钥匙,因为那里的光线更好。”对于海尔宾的支持者来说,其中包括世界各地数十名受人尊敬的科学家,10亿欧元可以买到非常明亮的光芒。
然而,许多科学家并不相信有必要将世界的数据集中收集起来。他们认为,更好的做法是在互联网上形成数据云,通过链接连接起来,使其对所有人有用。共享的数据格式将使更多人有机会浏览数据,找到隐藏的联系,并创建一个竞争性思想的市场。
下一个顶级模型
在数据集中寻找相关性对于现代科学来说并不稀奇,即使这些数据集现在非常庞大,并且相关性跨越天文距离也是如此。例如,研究人员已经积累了大量关于人类行为的匿名数据,以至于他们已经开始解开触发“行为疾病”(如 2 型糖尿病)的复杂行为和环境因素,麻省理工学院人类动力学实验室主任亚历克斯·彭特兰说。他说,以这种方式挖掘大数据,使具有开创性意义的弗雷明汉心血管疾病研究——该研究始于 1948 年,追踪了 5209 人——看起来像是一项焦点小组研究。
然而,海尔宾的未来信息通信技术知识加速器和危机救援系统(其正式名称)超越了数据挖掘。它将包括全球危机观察站,这些观察站将寻找新出现的问题,如粮食短缺或新出现的流行病,以及一个行星神经系统,该系统聚合来自分布在全球各地的传感器系统的数据。但未来信息通信技术项目的核心是地球生命模拟器,这是一项努力,旨在模拟世界上无数的社会、生物、政治和物理力量,并利用它们来洞察未来。
模型已经伴随我们几代人了。1949 年,来自新西兰的工程师和经济学家比尔·菲利普斯公布了一个英国经济运行的模型,该模型是用管道用品和一个拆卸的雨刷电机构建的。有色水模拟了基于消费者支出、税收和其他经济活动的“假设”调整的收入流动。尽管按照今天的标准来看,它当然很原始,但它表达了建模的基础知识:规定因素之间的一组关系,输入数据,观察结果。如果预测不准确,那么这本身就成为可用于改进模型的有价值的信息。
我们的社会离不开模型,就像离不开计算机一样。但是,您能添加足够的管道和泵来建模,不仅例如火山爆发对短期经济增长的影响,还能建模这种变化对其触及的所有人类行为领域(从教育到疫苗分配)的影响吗?海尔宾认为可以。他的信心部分来自于他成功地模拟了另一个复杂系统:公路交通。通过在计算机上模拟车辆的流动,他和他的同事提出了一个模型,该模型(再次在计算机上)表明,您可以通过减少行驶车辆之间的距离来结束走走停停的延误。(不幸的是,距离太小,需要机器人驾驶的汽车。)同样,海尔宾描述了一个他咨询过的项目,该项目模拟了麦加朝觐期间行人的移动,从而促成了耗资 10 亿美元的街道和桥梁改造,以防止踩踏致死事件。海尔宾将他的未来信息通信技术系统视为这些交通模型的本质上的放大和细化。
然而,哈佛大学定量社会科学研究所所长加里·金认为,这种基于代理的建模仅在非常狭窄的情况下才有效。在高速公路或朝觐的情况下,每个人都朝着相同的方向前进,并共同渴望尽快且安全地到达目的地。相比之下,海尔宾的未来信息通信技术系统旨在模拟人们出于最广泛的原因(从自私到利他)而行动的系统;他们的动机可能差异很大(致富、结婚、远离报纸);意外事件可能爆发(世界领导人的去世、不明飞行物的到来);存在复杂的反馈回路(一位专家的金融模型促使她押注于一个行业,然后引发市场恐慌);并且存在来自相关模型的输入、输出和反馈回路。例如,一个城市的经济模型取决于交通模式、农业产量、人口统计、气候和流行病学模型,仅举几例。
除了纯粹的复杂性问题之外,科学家们还提出了一系列相互关联的挑战,这样一个全面的系统将不得不克服这些挑战。首先,我们没有一个良好的社会行为理论可以作为起点。金解释说,当我们对事物的运作方式有一个可靠的认识时——例如在物理系统中——我们可以构建一个成功预测结果的模型。但是,无论我们拥有的社会行为理论是什么,在预测能力方面都远远不及物理定律。
尽管如此,金指出另一种可能性:如果我们有足够的数据,我们可以根据一些关于什么产生规律性的提示来构建模型,即使我们不知道这些规律是什么。例如,如果我们记录一年中全球每个点的温度和湿度,我们就可以在不了解流体动力学或太阳辐射的情况下,制定相当准确的天气预报。
东北大学复杂网络研究中心主任兼该项目顾问艾伯特-拉斯洛·巴拉巴西说,我们已经开始使用数据来梳理出人类系统中的一些规律性。例如,巴拉巴西和他的同事最近公布了一个模型,该模型基于人们过去的出行模式,以 90% 的准确率预测人们明天下午 5 点会在哪里。这种知识不假设任何关于心理学、技术或经济学的东西。它只是查看过去的数据并从中推断。
然而,有时使这些方法奏效所需的数据量使我们的能力相形见绌。卡内基梅隆大学的统计学家科斯玛·沙利齐认为,为了在需要您考虑 100 个不同交互因素的问题中获得与二维问题相同的准确性,所需的数据点数量会上升到宇宙中恒星数量的范围。他得出结论,除非您让自己接受使用未能捕捉到社会行为全部复杂性的简单模型,“仅从数据中获得好的模型是毫无希望的。”
然而,未来信息通信技术不仅仅依赖于一个模型,无论它多么复杂。海尔宾说,它将结合“计算机科学、复杂性科学、系统理论、社会科学(包括经济学和政治学)、认知科学”和其他领域。然而,组合模型也会产生复杂性爆炸的问题。“假设天气和交通各有 10 个结果,”金说。“现在你想了解两者。那么我们需要知道多少东西?不是 20 个,而是 100 个。这并非毫无希望。这只是意味着数据需求增长得非常快。”
为了进一步增加挑战,一个模型的结论的消息可能会改变它正在建模的情况。“这是一个重大的科学问题,”印第安纳大学复杂网络与系统研究中心主任兼该项目的首席数据规划师亚历山德罗·韦斯皮尼亚尼说。“我们如何开发包含反馈回路或实时数据监视器的模型,以便让我们不断更新我们的算法并获得新的预测”,即使预测会影响它们自身的条件?
这些模型也必须非常复杂和具体。例如,如果您询问经济模型您的城市是否应该开垦一些土地,并且如果该模型没有考虑到该决定如何影响食物链,那么它可能会产生一个可能对经济有利但对环境有害的结果。由于有 1000 万个物种,仅仅学习哪个物种吃什么就是一项艰巨的任务。此外,食物的相关差异并没有止步于物种层面。洛克菲勒大学的环境科学家杰西·奥苏贝尔指出,通过分析蝙蝠胃内容物的 DNA,我们可以确切地知道蝙蝠吃什么。但是,特定洞穴中蝙蝠的食物来源可能与几英里外同种蝙蝠的食物来源不同。如果没有爬过洞穴逐个洞穴的鸟粪覆盖的特殊性,依赖于相互关联的模型的专家可能会遇到不可靠和级联效应。
因此,虽然从理论上讲,即使我们没有任何可以构建它们的潜在规律,我们也可能能够构建复杂现象的模型,但实际困难很快就会呈指数级增长。总是有另一层细节,总是有另一个因素可能在最终核算中被证明至关重要;如果我们事先不了解人类的运作方式,我们就无法知道我们的核算何时结束。
大数据在基因组学和天体物理学中取得了许多成功,但一个领域的成功可能并不证明我们可以在各个领域以高度复杂的方式相互依赖时取得成功。也许我们可以逐步取得进展。或者,对于像涉及人类活动的系统这样复杂的系统,模型的威力可能存在自然限制。毕竟,人类系统会受到不可预测性的两个标志的影响:黑天鹅和混沌理论。
没有理解的知识
2010 年 12 月 17 日,穆罕默德·布瓦吉吉,突尼斯小镇西迪布济德的一名街头小贩,为了抗议当地的腐败文化而自焚。这一单枪匹马的行为引发了一场席卷阿拉伯世界的民众革命,导致了推翻埃及、利比亚及其他地区数十年独裁统治的起义,永远颠覆了世界石油最丰富地区的权力平衡。
哪个模型能够预见到这一点?或者 2001 年 9 月 11 日的袭击事件及其影响程度?或者互联网会从一个研究人员使用的默默无闻的网络变成整个行业的制造者和破坏者?这就是纳西姆·尼古拉斯·塔勒布在他 2007 年的同名畅销书中普及的黑天鹅问题。“世界总是比模型更复杂,”奥苏贝尔说。“总会发生一些事情。”
更糟糕的是,海尔宾想要理解的社会、政治和经济系统不仅仅是复杂的。它们是混乱的。每个系统都依赖于数百个独特的因素,所有因素都错综复杂地相互关联,并且受到它们开始状态的深刻影响。在一个混乱的系统中,一切的发生都有原因,或者更确切地说,一切的发生都有太多的原因,以至于除了最广泛的概括之外,事件是不可预测的。例如,乔治梅森大学的气候学家兼全球环境与社会研究所所长贾加迪什·舒克拉告诉我,虽然我们现在可以预测未来五天的天气,“我们可能无法超过第 15 天。[无论]你部署多少传感器,初始条件仍然会存在一些误差,而且我们使用的模型并不完美。”他补充说,“局限性不是技术性的。它们是系统的可预测性。”
舒克拉小心地区分了天气和气候。我们可能无法预测 100 年后的下午是否会下雨,但我们可以在一定程度上可靠地预测平均海洋温度将是多少。“即使气候是一个混乱的系统,它仍然具有可预测性,”舒克拉说。海尔宾的模型也是如此。“详细的金融市场走势可能比天气更难以预测,”海尔宾在一封电子邮件中写道,“但金融崩溃迟早会发生这一事实可以从某些宏观经济数据(例如,美国多年来消费增长超过收入)中推导出来。”但我们不需要一套超级计算机、星系般的数据和 10 亿欧元就能知道这一点。
如果目标是为决策者提供基于科学的建议,正如海尔宾在证明这笔费用的合理性时强调的那样,那么就会出现一些实际问题。首先,人类的大脑是否能够理解超级计算机得出他们得出的答案的原因,这一点完全不清楚。当模型足够简单时——例如,英国经济的水力模型——我们可以回溯模型运行并意识到,个人储蓄账户的减少是过快提高税收的意外影响。但是,从大数据计算得出并因此通过反馈结果进行调整的复杂模型可能会从对于人脑来说过于复杂的过程中产生可靠的结果。我们将拥有知识,但没有理解。
当我问海尔宾关于这个局限性时,他停顿了一下,然后说他认为很可能出现人类可以理解的一般原则和方程式,因为当他研究交通时就出现了这种情况。尽管如此,金融系统、社会行为、政治运动、气象学和地质学的交叉比三个车道的交通朝同一方向行驶要复杂几个数量级。因此,如果希腊退出欧元,人类可能无法理解为什么模型预测会发生灾难。
如果没有理解为什么特定的行动方案是最佳方案,总统或首相将永远无法根据它采取行动——特别是如果该行动看起来很荒谬的话。哥伦比亚大学的统计学家维多利亚·斯托登想象了一位政策制定者,他阅读了地球生命模拟器的结果并宣布:“为了将世界从经济危机中拉出来,我们必须点燃世界上所有的油井。”如果政策制定者无法解释为什么这样做是对的,那么这将不是可行的建议。毕竟,即使科学家们几乎普遍就气候变化的危险达成一致,政策制定者仍然拒绝为每个严肃的环境模型预测的未来做好准备。
书呆子与书呆子争论
海尔宾目前描述的未来信息通信技术假设如此庞大、复杂的工作需要一个中央组织来负责,因此出现了这些和其他实际问题。海尔宾将监督一个全球项目,该项目将组装硬件、收集数据并返回结果。
这不是知识共享科学副总裁约翰·威尔班克斯会做的事情。威尔班克斯和海尔宾一样对大数据充满热情。但他的直觉倾向于互联网,而不是机构。他是一个正在进行的项目的主要人物,该项目旨在组织各种任何人都可以使用的“数据公地”。目的是让世界各地的科学家参与开放的思想、模型和结果市场。这与规划一个具有组织化的输入和高价值输出的正式机构的方法相反。
这两种方法侧重于不同的价值观。数据公地可能不具备封闭系统所具有的预先、完美管理的优势,但威尔班克斯认为,它在“生成性”方面弥补了这一点,“生成性”是乔纳森·齐特莱恩 2008 年的《互联网的未来》中的一个术语:“一个系统通过来自广泛而多样的受众的未经筛选的贡献来产生意外变化的能力。”例如,网络允许每个人参与,这就是为什么它是一个如此强大的创意引擎。在威尔班克斯看来,如果科学家能够访问尽可能多的数据,如果这些信息对所有人开放,易于使用,并且可以跨学科、机构和模型整合在一起,那么科学将以最快的速度进步。
在过去几年中,一种新的数据“语言”应运而生,这使得威尔班克斯的梦想变得更加可信。它源于万维网发明者蒂姆·伯纳斯-李在 2006 年提出的原则。在这种“链接数据”格式中,信息以简单断言的形式出现:X 以某种指定的方式与 Y 相关;这种关系可以是发布数据的人想要的任何关系。例如,如果知识共享想要以链接数据的形式发布其人员配备信息,它将以一系列“三元组”的形式提供:[约翰·威尔班克斯][领导][知识共享科学],[约翰·威尔班克斯][拥有电子邮件地址][johnsemail@creativecommons.org],等等。
此外,由于世界上有许多约翰·威尔班克斯,并且“领导”有许多含义,因此这些三元组的每个元素都将包含一个 Web 链接,该链接指向权威或澄清来源。例如,“约翰·威尔班克斯”链接可能指向他的主页、知识共享网站上关于他的页面或他的维基百科条目。“领导”可能指向定义他提供的领导类型的标准词汇表。
这种链接结构使研究人员能够连接来自多个来源的数据,而无需首先就解释所有部分之间关系的单一抽象模型达成一致。这降低了准备发布数据的成本。它还增加了数据发布后的价值。
链接数据方法增加了理论上可以关注任何特定数据集的眼球数量,从而增加了某人偶然发现有趣信号的可能性。将测试更多的假设,尝试更多的模型。“你的书呆子和我的书呆子需要争论,”威尔班克斯说。“他们需要争论模型中的变量和数学是否正确,以及假设是否正确。”世界是如此混乱,以至于我们理解它的最佳机会——及时抓住金融崩溃——是让尽可能多的书呆子去研究它。对于威尔班克斯和他的部落来说,使数据开放和可互操作是第一步——变革性的一步。在加入战斗的群体中,肯定会有聚集了伟大思想并构建了复杂模型的机构。但真理出现的第一个也是首要条件是争论本身。书呆子与书呆子争论。
威尔班克斯和海尔宾都认为大数据具有变革性,并且都希望比几年前我们认为的更多社会行为可以得到科学的理解。当海尔宾没有试图通过描绘地球生命模拟器将如何避免国家破产和全球流行病的画面来劝说赞助人时——正如巴拉巴西观察到的,“如果你想说服政治家,你必须谈论结果”——他承认未来信息通信技术将支持彼此竞争的多个模型。此外,他热衷于收集历史上最大的大数据集合,并将其几乎全部公开。(有些将不得不保持私有,因为它来自商业提供商的许可,或者因为它包含个人信息。)
然而,差异是真实存在的。海尔宾和他的数据架构师韦斯皮尼亚尼并没有止步于承认未来信息通信技术机构将支持多个模型。“即使天气预报也是用多个模型制作的,”韦斯皮尼亚尼说。然后他补充说,“你将它们组合起来,并获得概率结果的统计推断。”对于海尔宾和他来说,价值在于这种趋同于单一答案。
当然,公地观点也旨在趋同于真理。但作为一种网络基础设施,它承认甚至促进富有成效的分歧。科学家可以有不同的模型、不同的分类法、不同的术语,但他们仍然可以相互交流,因为他们可以沿着共享数据的链接追溯到互联网或现实世界中的某个已知锚点。也就是说,他们可以独立运作,但仍然可以沟通甚至协作。差异不会解决为一种谈论世界的单一方式,因为——威尔班克斯认为——可能存在文化、起点甚至性情的差异。数据公地方法承认、认可甚至拥抱差异的持久性。
什么是知识
显而易见的问题是实际问题:哪种方法会更好,其中“更好”意味着推进科学水平并产生对有关未来的难题的有意义的(和准确的)答案?
答案可能归结为对知识本质的意见分歧。在西方,我们已经有两千年的时间将知识视为一个由已确定的、一致的真理组成的系统。也许这更多地展示了知识媒介的局限性,而不是知识本身:当知识通过用永久墨水写在纸上来传播和保存时,它就变成了通过机构过滤器的东西和不改变的东西。然而,知识的新媒介与其说是一个出版系统,不如说是一个网络化的公众。我们可能会从我们的数据公地中获得大量的知识,但知识更可能是一种持续的争论,因为它会受到这种方式和那种方式的拉扯。事实上,这就是网络时代的知识面貌:永不完全确定,永不完全书写,永不完全完成。
未来信息通信技术平台希望构建一个足够完整的世界表示,以便我们可以向它提问并依赖它的答案。另一方面,链接数据(部分地)与我们可以在生活的所有许多领域中明确地表示世界的逻辑模型的想法形成对比。知识可能来自公地,即使该公地本身不是世界的完美表示。
除非,当然,混乱的思想争论——书呆子与书呆子争论——是对世界更完全真实的表示。