2010年,在年度谷歌时代精神大会结束后的一天深夜,心理学家马丁·塞利格曼(当年的特邀演讲嘉宾)发现自己与一些科技界的大腕们围在一起。谷歌刚刚开创了使用搜索引擎查询来监测流感在美国传播的先河,谷歌地图也风靡全球。这些工具的潜在应用似乎是无限的,因此,积极心理学的奠基人塞利格曼和谷歌联合创始人拉里·佩奇等人开始探索各种可能性。
如果能开发出类似“谷歌流感趋势”这样的工具来描绘美国的心理健康状况呢?具体来说,他们想知道,计算机算法是否可以通过追踪人们在社交媒体上使用的语言,来准确预测幸福感和福祉在时间和空间上的变化。
在几个月内,塞利格曼与我和宾夕法尼亚大学的其他几位同事共同启动了世界福祉项目(WWBP),最初是与谷歌的慈善机构Google.org合作。从那时起,我们由心理学家、计算机科学家、统计学家和应用程序开发人员组成的跨学科团队迅速壮大。现在,它包括13名专职科学家,与世界各地的政府和组织合作开展45个子项目。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和思想的具有影响力的故事能够继续存在。
2015年1月,我和我的同事发表了一项重要的概念验证结果。我们评估了来自美国约1300个县的超过1亿条推文,这是来自Twitter的公开数据样本。我们发现,特定地点负面推文(尤其是表达愤怒或敌意的推文)的比例可靠地预测了当地因心脏病导致的死亡率。许多其他研究结果也陆续出现,揭示了推文或Facebook帖子中的语言与年龄、性别、性格和收入水平,以及精神疾病和身体疾病等特征之间的关联。
这些结果清楚地表明,社交媒体数据是一种丰富的资源,心理学家、社会学家、流行病学家和其他人可以挖掘这些资源,以进行有价值的社区范围的健康预测,甚至进行个体诊断。机会可能非常巨大,但这个快速发展的领域也有阴暗面。对人们在社交媒体上如何使用语言的分析完全基于统计模式。但它们可能非常具有启发性,以至于情报人员、政治候选人和商业人士——从营销人员到保险精算师——与科学家一样对它们的应用感兴趣。事实上,很少有人意识到算法可以从他们在Facebook和Twitter上的日常活动中收集到多少信息。
词语可以揭示什么
在WWBP团队开始测试推文以发现健康趋势之前,谷歌已经迈出了一个有趣的初步步骤。2008年,时任该公司首席健康战略师的医生罗尼·泽格尔和他的同事推出了“谷歌流感趋势”项目。该项目发现了谷歌上与流感症状和治疗相关的搜索词,并记录了这些搜索的地理位置。通过这种方式,他们可以实时绘制感染的传播情况。值得注意的是,他们对流感季节的追踪与美国疾病控制与预防中心收集的统计数据相符——只是谷歌首先获得了信息,因为他们不需要等待医生和医院报告每次疫情。“谷歌流感趋势”项目于去年终止,但该项目证明,搜索查询为监测特定疾病的传播提供了一种可行的方法,并启动了现在被称为数字流行病学领域的先河。更新的尝试正在探索将搜索查询作为监测手段,不仅监测流感,还监测登革热、疟疾和性传播疾病。
理解整个人群的心理状态(正如我们的项目努力做的那样)可能比追踪疾病要微妙一些:没有人会像在感到不适时搜索治疗方法那样谷歌搜索“我很快乐”。因此,我们不得不采取一种不那么直接的途径,分析人们在社交媒体上写的内容,而不是他们的搜索词。数十年的研究发现,人们在日常对话中选择的词语可以揭示他们潜在心理的很多信息。而且,一个人的精神状态和身体健康之间存在无数联系。例如,压力、消极、焦虑和抑郁会损害我们的免疫系统和心血管系统。同样,积极情绪和乐观情绪似乎具有保护作用,降低了包括动脉粥样硬化性心脏病在内的多种疾病的风险,并延长了预期寿命。
从20世纪90年代开始,社会心理学家詹姆斯·潘尼贝克(现为德克萨斯大学奥斯汀分校摄政百年教授)和他的同事们对词语与福祉之间的联系进行了一系列有趣的发现。他们正在研究为什么事后写下创伤经历的人(一种称为表达性写作的技巧)比那些将令人不安的经历保密的人更不容易生病。为了评估他们的受试者写的内容,他们使用计算机程序快速统计这些文章中包含的词语和概念。
令他们惊讶的是,他们发现写作的实际内容——无论它是否包含积极或消极的语言和想法——所揭示的参与者的精神健康状况不如功能性词类所揭示的多。例如,他们发现,处于抑郁症痛苦中的人并不一定写悲伤的事情,但他们确实可靠地使用了更多第一人称单数代词:我、我的、我的。抑郁症患者倾向于沉思,并且经常非常专注于自己的痛苦。他们发现,当参与者开始在写作中使用更多因果词(因为、因此、但是)和复杂的语言时,创伤症状通常会减轻。这些模式似乎表明,患者开始理解创伤并将其整合到一个连贯的叙述中。
随着Facebook、Twitter和类似应用程序在过去十年中的兴起,可用于分析的语言数据量急剧增加,为心理学家们打开了一扇了解社交媒体用户心理健康状况的广阔新窗口。(一般来说,我们处理匿名数据,并请求Facebook用户的许可。)当然,人们在网上展示的是他们自己的一个版本,夸大好的行为、特质和事件——研究人员将这种偏差称为社会期望偏差。但这种偏差通常没有你想象的那么扭曲。人们与现实生活中的朋友成为Facebook好友这一事实通常有助于他们在网上保持相当诚实。现实生活中的熟人知道他们的生活并非全是野餐和聚会。此外,由于这些偏差往往会平等地影响每个人,算法仍然可以区分出人与人之间的关键差异。为了支持这一观点,当我们将我们的方法的预测结果与以传统方式(电话调查、医院报告等,这些方式更具代表性地抽样人口)收集的数据进行比较时,我们常常惊讶于两者之间有多么接近。
推文中的大海捞针
社交媒体动态中的语言——充满了俚语和表情符号——呈现出一组具有挑战性的解析数据。我们今天之所以能够从中提取有意义的模式,要归功于过去30年中自然语言处理技术的突破。随着计算能力的指数级增长,使用统计模式识别算法(也称为机器学习)处理语言变得越来越可行。这些工具近年来发展迅速,并实现了诸如苹果的Siri和谷歌的分析程序等应用,这些程序会在你的电子邮件收件箱旁边投放那些令人毛骨悚然的恰当广告。
在这些进步之前,心理学中的语言分析是基于更简单的基于词典的方法,这些方法将情绪状态与预先确定的词语列表联系起来。例如,如果文本中出现了“快乐”这个词,它就被认为是积极情绪的标志。这种方法有时会产生令人困惑的结果,因为语言本身就是模棱两可的。当早期在该领域的工作将心理学家制作的“积极情绪”词典应用于社交媒体动态时,它错误地表明元旦的幸福感出现了巨大飙升——仅仅是因为人们互相祝愿“新年快乐”。
现代机器学习方法避免了这些错误。它们从不可知论开始——也就是说,它们对哪些词语表示什么情绪或特质不做任何假设——然后它们聚类、计数、评分和隔离词语,以从头开始“学习”心理关联。一个缺点是,这些方法仅适用于至少有5000到10000名用户的数据集。事实上,条目越多,结果越准确,因为额外的输入使我们能够从日常帖子的所有噪音中隔离出甚至微弱的信号。对我们来说幸运的是,大多数社交媒体网站现在都有数亿用户。
2013年,现任石溪大学的H·安德鲁·施瓦茨、塞利格曼和我,以及我们的同事,发表了一项研究,其中我们将机器学习方法应用于从75000名志愿者的Facebook消息中收集的7亿个单词、短语和主题,这些志愿者也参加了性格测试。到目前为止,这是将语言和性格联系起来的最大规模的研究,数量级更大。一旦算法掌握了如此多Facebook用户的状态更新,并了解了这些用户在性格测试中的得分,它们就可以将词语与性格特质相关联。
利用研究结果,我们创建了词云,以显示最能区分外向型和内向型以及神经质和情绪稳定性的词语。我们发现,有些词语很少使用,但当使用时,它们对心理特质具有高度预测性。例如,“抑郁”这个词的使用是神经质的一个强有力的(如果很少见)标志。
许多关联都是有道理的,但有些是令人惊讶的。你可能已经预测到外向型的人更常使用“聚会”这个词,而内向型的人更常使用“电脑”这个词,但你是否会猜到,神经质得分高的人更频繁地使用“显然”这个词?或者,情绪稳定的人更频繁地写关于体育运动的内容?或者,内向型的人对日本媒体(如动漫)和表情符号表现出更大的兴趣?在我们同事格雷戈里·帕克领导的一项后续研究中,我们将算法应用于另一组Facebook帖子,实际上仅使用用户的动态来预测他们的性格。值得注意的是,算法的表现与朋友们填写关于受试者的性格调查问卷一样好,甚至更好。在某种意义上,算法最终比他们的朋友更了解这些人!我们将这一结果视为我们已经掌握了期望偏差的一个好迹象。
然后,我和我的同事在Twitter上使用了相同的方法,来估计美国约1300个县的平均“心理概况”,而无需敲任何人的门。根据美国疾病控制与预防中心关于死亡原因的数据(基于实际死亡证明),推文表达更多负面情绪、愤怒和敌意(充满了诸如“仇恨”和诅咒等词语)的县,心脏病死亡人数也最多。乐观的县心脏病相关死亡率较低。当我们进一步深入研究数据时,我们意识到我们的方法在预测动脉粥样硬化死亡方面特别有效,甚至比其他形式的心脏病更有效。动脉粥样硬化性心脏病是美国的主要死亡原因,毫不奇怪,它是被认为与心理原因最相关的心脏病类型。
奇怪的是,发推文的人并不是死亡的人。我们的方法没有说明任何人的动脉粥样硬化个体风险。相反,推文的总体基调——通常来自太年轻而不会有心脏问题的人——似乎捕捉到了整个社区心理的快照。这些推文有可能检测到社会学家经常提到的社区凝聚力这种难以捉摸的品质,粗略地定义为社区成员合作和互相帮助的意愿。研究表明,社区凝聚力越强,其成员往往越能享受良好的身心健康。目前,我们正在扩展我们的分析,以寻找预测所有主要死亡原因(包括癌症和中风)的词语和语言模式。但我们预计,在这方面,更积极的——并且大概更具凝聚力的——社区会表现得更好。
创建健康仪表板
我们基于Twitter对社区范围心脏病死亡人数的预测,比任何使用政府统计数据对已知风险因素(包括肥胖、糖尿病、吸烟和高血压)进行的预测都更准确。事实上,结果非常可靠,以至于即使在我们控制了强大的经典预测因素(如教育和贫困)之后,我们的语言变量仍然可以预测心脏病发病率。
随着越来越多的人使用社交媒体,我们的预测可能会变得更好。十年前,只有特定人群是Facebook用户——主要是青少年和年轻人。然而,截至2015年10月,皮尤研究中心报告称,65%的美国成年人经常使用社交媒体网站——自2005年以来增加了10倍。90%的年轻人使用社交媒体,而65岁以上的人群的使用率自2010年以来增加了两倍多。Twitter用户的中位年龄为32岁——仅比美国人口的中位年龄小6岁。
与美国疾病控制与预防中心的行为风险因素监测系统或盖洛普民意调查(考虑到小得多的样本,成本也高得多)相比,基于Twitter或Facebook的健康评估可以提供更快、更便宜的社区范围福祉仪表板指标。我和我的同事现在已经与英国的大学、南澳大利亚州政府和墨西哥当局进行了咨询,他们渴望通过Twitter追踪健康趋势,可能会开始在下一次全国人口普查中询问人们的社交媒体账号。在许多方面,在一个越来越少有人可以通过座机电话联系到的世界中,这是一个自然的步骤。
对社交媒体上语言的分析也可能应用于帮助临床医生治疗个体患者。我们项目的莱尔·昂加尔和其他人最近与雷纳·默钱特和其他宾夕法尼亚医学院的同事合作,在宾夕法尼亚大学医院的急诊室放置了iPad。我们要求急诊室患者自愿登录Facebook,并允许分析他们的状态更新。然后,使用我们的机器学习方法,我们将所有语言模式与他们的医疗记录相关联。查看数据后,我们发现了一系列潜在的各种疾病的语言标记——包括抑郁症。未来,医生或许能够分析社交媒体帖子中疾病的语言警报信号,并对患者进行适当的随访。
事实上,分析我们生活叙事的手机应用程序似乎完全有可能帮助医生在不同情况下提供更好的护理。想象一下,一位心理治疗师每天都会收到来自其抑郁症患者的自动情绪读数,然后可以给他们发短信发送关键提醒、见解或紧急建议。或者一位医生监测社交媒体动态,寻找心脏病发作患者抑郁症的迹象,抑郁症是心脏病发作患者再次发生危机的重大风险因素。2013年,微软研究院的一个团队使用推文预测了376位新妈妈的产后抑郁症。他们的模型在仅分析产前帖子时准确率达到71%,而在同时包含出生后最初几周的推文时准确率达到约80%。
这些用途远比保险提供商或放贷人偷偷使用社交媒体分析来拒绝服务或提高费率要好得多。在我们的研究中,我们始终获得许可来分析参与者的在线动态,并遵循严格的隐私准则。但很少有Facebook用户意识到,允许访问他们的状态——甚至仅仅是他们的“点赞”——就可以为公司提供相当精细的性格特征。社会有一种沿着其最强大技术发展的共同进化方式——我们需要科学界、政策界和产业界的许多人共同努力,才能把这件事做好。不过,我们越是意识到社交媒体分析在改善我们的健康和福祉方面的潜力,我们就越能加入到以有意识、合乎道德甚至拯救生命的方式塑造我们未来的努力中。