大数据如何改善社会

我们每天留下的数字痕迹比我们自己意识到的还要多地揭示了关于我们的信息。这可能会变成一场隐私噩梦——或者它可能成为一个更健康、更繁荣的世界的基础

19世纪中叶,工业革命推动的城市快速发展造成了紧迫的社会和环境问题。城市通过建设集中式网络来应对,以输送清洁的水、能源和安全的食物;促进商业、便利交通和维持秩序;并提供医疗保健和能源。今天,这些超过一个世纪历史的解决方案正变得越来越不充分。我们的许多城市都交通拥堵。我们的政治机构陷入僵局。此外,我们还面临着一系列新的挑战——最值得注意的是,在防止全球变暖最坏影响的同时,养活和安置预计将增加20亿人口的人口。

这些独特的21世纪问题需要21世纪的思维方式。然而,许多经济学家和社会科学家仍然使用启蒙时代的观念(如市场和阶级)来思考社会系统——这些简化的模型将社会互动简化为规则或算法,而忽略了个人人类的行为。我们需要更深入地研究,考虑到社会互动的细微细节。被称为大数据的工具为我们提供了实现这一目标的手段。

数字技术使我们能够研究数十亿次的个人交流,人们在其中交易想法、金钱、商品或八卦。我在麻省理工学院的研究实验室正在使用计算机来研究这些交流中的数学模式。我们已经发现,我们可以开始解释以前神秘的现象——金融崩溃、政治动荡、流感大流行。数据分析可以为我们提供稳定的金融系统、运转良好的政府、高效且负担得起的医疗保健等等。但首先,我们需要充分认识到大数据的力量,并为其正确使用构建框架。跟踪、预测甚至控制个人和群体行为的能力是普罗米修斯之火的经典例子:它可以用于善,也可以用于恶。


关于支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的有影响力的故事的未来。


数字面包屑的预测能力
当我们进行日常生活时,我们会留下虚拟的面包屑——我们打电话的人、去的地方、吃的东西和购买的产品的数字记录。这些面包屑比我们选择透露的任何关于我们自己的信息都能更准确地讲述我们的生活。我们的 Facebook 状态更新和推文传递了我们选择告诉人们的信息,并根据当今的标准进行了编辑。相比之下,数字面包屑记录了我们实际发生的行为。

我们是社会动物,我们的行为永远不会像我们想象的那么独特。您打电话、发短信和共度时光的人——甚至您在附近认出但从未正式见过的人——在各方面都可能与您相似。我和我的学生可以通过检查您吃饭的餐厅和您交往的人群来判断您是否可能患上糖尿病。我们可以使用相同的数据来预测您倾向于购买的衣服类型或您偿还贷款的倾向。因为当我们感觉自己生病时,我们的行为会发生变化——我们去不同的地方,买不同的东西,给不同的人打电话,并在网上搜索不同的词——现在可以使用数据分析来制作一个不断更新的地图,预测城市居民在任何特定时刻最有可能在哪里感染流感。

大数据中提供对社会运作最深刻洞察的数学模式涉及人与人之间思想和信息的流动。我们可以通过研究社会互动模式(面对面交谈、电话、社交媒体消息传递)以及评估个人购买模式(如信用卡数据所示)或移动模式(如 GPS 轨迹所示)中的新颖性和探索量来看到这种流动。思想的流动对于理解社会至关重要,不仅因为及时的信息对于高效的系统至关重要,而且还因为思想的传播和结合构成了创新的基础。与社会其他部分隔绝的社区有停滞不前的风险。

我和我的学生发现的最令人惊讶的发现之一是,思想流动的模式(通过购买行为、身体流动性或交流来衡量)与生产力增长和创造性产出直接相关。相互交往并在其社交群体之外探索的个人、组织、城市甚至整个社会都具有更高的生产力、更大的创造性产出,甚至更长寿、更健康的生活。我们在所有社会物种中都看到了这种模式的变体,甚至蜜蜂也是如此。思想流动似乎对每个社会的健康都至关重要。

因此,当我们分析公司和政府时,将它们视为思想机器是有用的。这些机器主要通过个人互动来收获和传播思想。两种数学模式为健康的思想流动提供了证据。第一个是参与,我们将其定义为工作组内定期发生的可能的人与人之间交流的比例。参与度和生产力之间的关系很简单:高水平的参与度预示着高群体生产力,几乎无论该群体在做什么或其成员具有什么样的个性。第二个因素是探索——对群体成员从外部引入新想法的程度进行数学测量。探索是创新和创造性产出的良好预测指标。

在世界各地的公司进行的实地实验中,我和我的学生通过为员工配备社交测量 ID 徽章(跟踪人与人之间互动的电子设备)来衡量参与度和探索水平。我们发现,增加群体内的参与度可以显着提高生产力,同时减轻压力。例如,在了解到呼叫中心通常安排咖啡休息时间,以便任何给定时间只有一个员工休息后,我说服美国银行呼叫中心的经理同时安排咖啡休息时间。目的是促进员工之间更多的参与。这一项改变就使生产力每年提高了 1500 万美元。

我们还发现,探索——在人与人之间建立新的联系——是创新和创造性产出的极佳预测指标。丰富的沟通渠道,特别是面对面的互动,比电子沟通渠道重要得多。换句话说,电子邮件永远无法完全取代会议和谈话。

我们还发现,探索和群体参与的振荡模式——人们参与群体,然后寻找新信息,将其带回,然后重复此过程——始终与更大的创造性产出相关联。在已建立的研究机构中,我的同事已经能够衡量面对面互动中的这种模式,并使用这些测量结果来准确识别研究人员最具创造力的日子。同样的方法也适用于虚拟团队,其成员分布在许多地点。

类似的信息流动模式可以预测整个城市和地区的生产力产出。社区参与和社区外探索的模式甚至可以预测社会结果,例如预期寿命、犯罪率和婴儿死亡率。信息贫民窟社区的表现与物理贫民窟一样糟糕,而彼此参与并与周围社区联系的社区往往更健康、更繁荣。

最大化思想流动
使用大数据来诊断问题和预测成功是一回事。更令人兴奋的是,我们可以使用大数据来设计比我们今天拥有的组织、城市和政府更好的组织、城市和政府。

这种潜力在公司内部最容易看到。通过衡量思想流动,通常可以找到改进生产力和创造性产出的简单变化。例如,一家德国银行的广告部门在推出成功的新产品活动方面遇到了严重问题,他们想知道他们做错了什么。当我们使用社交测量 ID 徽章研究问题时,我们发现虽然组织内的团队之间交换了大量电子邮件,但几乎没有人与客户服务部门的员工交谈。原因很简单:客户服务部在另一层楼。这种配置造成了巨大的问题。不可避免地,广告部门最终会设计出客户服务部门无法支持的广告活动。当管理层看到我们制作的描绘这种信息流中断的图表时,他们立即意识到他们应该将客户服务部门搬到与其他团队相同的楼层。问题解决了。

提高参与度不是万能药。事实上,在不增加探索的情况下提高参与度可能会导致问题。例如,当博士后学生 Yaniv Altshuler 和我衡量 eToro 金融交易员社交网络内的信息流动时,我们发现在某个时间点,人们变得如此相互关联,以至于思想的流动被反馈循环所主导。当然,每个人都在交易思想——但它们是相同的思想一遍又一遍地重复。结果,交易员们在回音室中工作。当反馈循环在交易员群体中占主导地位时,金融泡沫就会发生。这正是为什么原本聪明的人都确信 Pets.com 是世纪股票的原因。

幸运的是,我们发现我们可以通过向个人提供小的激励或推动来管理人与人之间的思想流动。一些激励措施可以推动孤立的人更多地与他人互动;还有一些激励措施可以鼓励陷入群体思维的人探索他们当前联系人之外的世界。在对 270 万小型的个人 eToro 投资者进行的实验中,我们通过向交易员提供折扣券来“调整”网络,鼓励他们探索更多样化的其他交易员的想法。结果,整个网络仍然处于健康的群体智慧区域。更值得注意的是,尽管我们仅对少数交易员应用了推动措施,但我们能够将所有社交交易员的盈利能力提高 6% 以上。

设计思想流动还可以帮助解决公地悲剧,在这种悲剧中,少数人的行为方式导致每个人都遭受痛苦,但对任何一个人的成本都太小,几乎没有动力来解决问题。在健康保险行业中可以找到一个极好的例子。未能服用所需药物、锻炼或合理饮食的人的医疗保健成本更高,从而推高了每个人的健康保险价格。另一个例子是当税收征收过于集中时:地方当局几乎没有动力确保每个人都缴税,因此,逃税变得普遍。

通常的解决方案是找到违规者并提供激励或征收罚款,旨在让他们表现得更好。这种方法既昂贵又很少奏效。然而,研究生 Ankur Mani 和我已经证明,促进人与人之间更多的互动可以最大限度地减少这些情况。关键是向与违规者互动最多的人提供少量现金奖励,奖励他们而不是违规者以改善行为。在现实世界的情况下——例如,鼓励健康行为或促使人们节约能源的倡议——我们发现,这种基于社会压力的方法的效率是传统方法的四倍。

这种相同的方法可以用于社会动员——例如,在紧急情况下,或在任何需要特殊的、协调一致的努力来实现共同目标的时候。例如,在 2009 年,国防高级研究计划局设计了一项实验,以庆祝互联网诞生 40 周年。其想法是展示社交媒体和互联网如何在美国各地实现紧急动员。DARPA 为最快找到放置在美国大陆各地的 10 个红色气球的团队提供了 40,000 美元的奖金。大约 4,000 个团队报名参加了比赛,几乎所有团队都采取了最简单的方法——向任何报告看到气球的人提供奖励。我的研究小组采取了不同的策略。我们将在那些使用其社交网络招募后来看到气球的人以及那些自己看到气球的人之间分配奖金。这个方案在概念上与解决公地悲剧的社会压力方法相同,它鼓励人们尽可能多地使用他们的社交网络。我们赢得了比赛,在短短九个小时内找到了所有 10 个气球。

数据新政
为了实现数据驱动的社会,我们需要我所称的数据新政——可行的保证,即公共物品所需的数据可以随时可用,同时保护公民。新政的关键是将个人数据视为一种资产;个人将拥有关于他们的数据的所有权。 “拥有”您自己的数据意味着什么? 2007 年,我提出了一个与英国普通法关于占有、使用和处置原则的类比

您有权拥有关于您的数据。无论哪个实体收集数据,数据都属于您,您可以随时访问数据。因此,数据收集者扮演的角色类似于银行,代表其“客户”管理数据。

您有权完全控制您数据的使用。使用条款必须是选择加入,并以通俗易懂的语言清楚地解释。如果您对公司使用您数据的方式不满意,您可以删除这些数据,就像您会关闭您在一家没有提供令人满意的服务的银行的账户一样。

您有权处置或分发您的数据。您可以选择销毁或重新部署关于您的数据。

在过去五年中,我在世界经济论坛上帮助策划了政治家、跨国公司首席执行官以及美国、欧盟和世界各地的公共倡导团体之间关于这些基本原则的讨论。因此,美国、欧盟和其他地方的法规(例如新的美国消费者隐私权法案)已经在赋予个人对其数据的更大控制权,同时也鼓励公共和私营部门提高透明度和洞察力。

生活实验室
历史上,我们第一次能够充分了解自己,以构建比我们一直拥有的社会系统更好的社会系统。大数据有望带来与文字或互联网的发明相当的转型。

当然,转向数据驱动型社会将是一个挑战。在一个数据无限的世界中,即使是我们通常使用的科学方法也不再奏效:潜在的联系太多,以至于我们的标准统计工具经常产生无意义的结果。当假设明确且数据旨在回答问题时,标准的科学方法可以为我们提供良好的结果。但在大规模社会系统混乱的复杂性中,通常有成千上万个合理的假设;不可能一次性调整数据以适应所有这些假设。因此,在这个新时代,我们将需要以一种新的方式管理我们的社会。我们必须比以往任何时候都更早、更频繁地开始在现实世界中测试联系。我们需要构建“生活实验室”,在其中我们可以测试我们构建数据驱动型社会的想法。

生活实验室的一个例子是我们刚刚在意大利特伦托启动的开放数据城市,该城市与市政府、意大利电信、西班牙电信、研究型大学 Fondazione Bruno Kessler 和数据驱动设计研究所合作。该项目的目标是促进特伦托市内更大的思想流动。诸如我们的 openPDS(个人数据存储)系统等软件工具实施了数据新政,使个人可以安全地共享个人数据(例如健康详情或有关其孩子的事实),方法是控制其信息的去向以及对其进行的处理。例如,一个 openPDS 应用程序鼓励有幼儿的家庭之间分享最佳实践。其他家庭如何花钱?他们外出社交的频率有多高?人们在哪些幼儿园或医生那里待的时间最长?一旦个人给予许可,这些数据就可以通过 openPDS 安全且自动地收集、匿名化并与其他年轻家庭共享。

我们相信,像我们在特伦托进行的实验将表明,数据驱动型社会的潜在回报是值得付出努力和承担风险的。想象一下:我们可以预测和缓解金融崩溃,检测和预防传染病,明智地利用我们的自然资源,并鼓励创造力蓬勃发展。如果我们谨慎地应对陷阱,这个幻想可能会很快成为现实——我们的现实。

更多探索

社会神经系统:构建有效的政府、能源和公共卫生系统。 A. Pentland 发表于 Computer,第 45 卷,第 1 期,第 31-38 页;2012 年 1 月。

个人数据:新兴的新的资产类别。 世界经济论坛,2012 年 1 月。 www.weforum.org/reports/personal-data-emergence-new-asset-class

构建伟大团队的新科学。Alex “Sandy” Pentland 发表于 Harvard Business Review;2012 年 4 月。

大众科学在线
ScientificAmerican.com/oct2013/pentland 观看彭特兰的视频采访

亚历克斯·彭特兰 是麻省理工学院媒体艺术与科学系的东芝教授。他是经济合作与发展组织的顾问、联合国全球可持续发展数据伙伴关系的董事会成员、美国律师协会的前顾问以及美国国家工程院院士。

更多作者:亚历克斯·彭特兰
大众科学 Magazine Vol 309 Issue 4本文最初以“数据驱动的社会”为标题发表于大众科学杂志 第 309 卷第 4 期(),第 78 页
doi:10.1038/scientificamerican1013-78
© . All rights reserved.