新工具通过谷歌图书追踪几个世纪以来的文化

“文化组学”领域有望为人文研究者提供一个强大的定量工具,以分析追溯到16世纪的文化趋势


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您正在帮助确保未来能够继续产出关于塑造我们当今世界的发现和想法的具有影响力的报道。


文化 能否像基因组一样被解码?哈佛大学的一个团队已经与谷歌合作,破解了5,195,769本数字化书籍的脊背,这些书籍跨越了印刷文字的五个世纪,希望能为人文科学提供更量化的研究工具。

谷歌图书Ngram Viewer于12月16日在线发布,并在科学杂志上的一篇论文中进行了描述,它允许网络用户根据n元语法(一种自然语言序列建模方法)查询他们各自感兴趣的领域。

•    爱因斯坦究竟在文化意识中扎根有多深?

•    在过去150年中,对进化的兴趣是否一直在稳步增长?

•    超级英雄是否一直以“拯救世界”为己任?

诸如此类的问题催生了大量的本科和研究生论文,这些论文传统上需要花费大量时间在书库——或JSTOR——中搜索提及的内容,以便手工统计和进行大量的细读。

但是,一股将更多定量分析引入人文科学的趋势正在兴起,例如在耶鲁大学的英语系研究中使用认知科学和核磁共振成像,正如《纽约时报》在四月份报道的那样。社会科学家和人文学者已经通过PerseusWordHoard涉足定量研究领域。 就像物理科学一样,更多——以及更好的——数据可以带来更可靠的结果。 哈佛大学工程与应用科学学院大型实验室和学院院士Erez Lieberman Aiden说:“通过收集大量信息,我们可以富有成效地思考文化。 “在收集了数据集之后,我们可以应用非常分析性和高通量的工具来理解[它]。”

哈佛大学团队将其分析称为“文化组学”,基于文化“就像生物学中的进化一样可以研究”的理念,哈佛大学心理学系和进化动力学项目博士后研究员Jean-Baptiste Michel说,他与Aiden一起领导了这项研究。 研究人员认为,就像基因或表型随时间变化一样,文化情感也会随之变化。

Aiden说,该工具将“像生物学一样,你可以提出定量的问题,并且可以获得定量的答案”。 但就像全基因组关联研究(GWAS)一样,研究结果通常只是起点。

一词千金?
许多人文学者以兴奋和担忧并存的心情看待这种和其他基于定量的方法。 哥伦比亚大学英语与比较文学系副主任Nicholas Dames说:“词频是一种具有巨大潜力的工具。” 但他对仅使用频率来解决“更细致入微的问题,尤其是关于语义的问题”持保留意见。 

Dames解释说,“自然”、“专业”和“绅士”等词根据时间和地点已开始带有不同的含义——“并且这些语义转变的故事对于文化史而言比其使用频率的定性指标更为关键。 我们可能像18世纪那样频繁地使用“自然”,但我们难道没有为这个术语积累全新的含义,这些含义与各种科学和文化变革联系在一起吗?”

图书Ngram Viewer背后的研究人员承认,它不太可能取代经过实践检验的细读技术——就像GWAS并没有消除对基础科学研究和对照临床试验的需求一样。

尽管该程序有能力通过单击按钮(俏皮地标记为“搜索大量书籍”)生成整齐组织的分析结果,但Aiden坚持认为“我们当然不认为这个工具是答案机器。” 但该程序当然可以作为问题生成器。

例如,“进化”一词频率的演变揭示了一些意想不到的细微之处。 它在20世纪20年代中期之前总体呈上升趋势,然后在1945年左右逐渐下降(从当年测量数据中约占词语的0.0035%降至约0.0025%)。 为什么会出现下降——这是否重要? 研究人员不确定,并将此作为进一步研究的线索示例,Michel指出。

图书Ngram Viewer还可以揭示一些人的受欢迎程度,例如,研究人员在论文中得出结论,在纳粹德国出版的书籍中,犹太艺术家马克·夏加尔的参考文献明显匮乏,这表明存在广泛的审查制度。 (对于那些更热衷于关注科学家的人来说,根据最近的一项搜索,在20世纪60年代后期,“阿尔伯特·爱因斯坦”被提及的频率超过了“查尔斯·达尔文”,但两者在1975年至2005年左右都享有受欢迎程度的上升——研究人员发现,从长远来看,弗洛伊德的排名高于爱因斯坦或达尔文。)

Michel说,分析工具也可能提供“一个有趣的例子,说明我们如何在意想不到的地方思考”。 例如,他和他的团队发现,长期以来一直是文学中惯用手法的超级英雄的终极挑战,并非总是拯救世界。 相反,在搜索数据库后,他们发现,在两次世界大战之前,“总的来说,过去是拯救国家”。 但他指出,在20世纪,更全球化的敏感性也导致了“英雄的全球化”。

没有参与新论文的Dames并不完全相信“该方法会真正受到原本不倾向于定量方法的人文学者的欢迎,除非产生真正令人惊讶——或有争议——的结果。” 到目前为止,他发现报告的频率相当可预测,尽管这可能证明该方法正在奏效,他指出。

为数据除尘
当考虑到数据的明显混乱——且可能发霉——的来源时,清晰的线条和整洁的图表可能会引起一些警惕。 “我们的方法当然不是完美的,”Michel说。 例如,旧作品的新版本或翻译作品会记录在其出版的年份和语言中。

尽管包含的书籍大部分是用英语写的(约占72%),但用户也可以搜索用法语、西班牙语、德语、中文、俄语和希伯来语写的作品。 随着时间的推移,数据也变得更加可靠,只有少数书籍来自16世纪早期,到20世纪,每年编目的印刷文字达数十亿。

谷歌一直在与大学图书馆、出版社和其他组织合作,以获取尽可能多的书籍的数字扫描件。 Michel和他的同事选择了迄今为止已数字化的书籍的三分之一左右(约500万册,总共约1500万册),这约占已出版书籍的4%。 Michel说:“我们的首要标准是获取具有高质量元数据的书籍。” 当书籍的出版日期在元数据中被错误地注明时,它会扭曲该数据集,因此排除了那些附有错误信息的卷册。

即使使用较小的数字作品样本,图书Ngram Viewer的当前数据集和分析工具也花费了大约四年的时间才组合在一起。 Michel说,当我们开始时,这是“我们个人的愚蠢之举——我们没有意识到这会花费多长时间。” 目标是扩大可搜索的语料库——不仅要增加更多卷册,还要增加杂志、报纸、博客,甚至是非文本产品,例如艺术品。

Dames指出,除了来源类型之外,扩大搜索单元的范围将增加这类定量方法的价值,并补充说,能够研究体裁和叙事形式的转变等事物至关重要。 “这似乎将是人文科学定量工作的下一个必要前沿:对大于单个词汇的形式的研究。” 

与此同时,研究人员鼓励公众在该网站上进行搜索——或下载庞大的数据集以进行自己的分析。 Michel说:“我认为在一段时间内,这可能是一个奇迹的来源。” 例如:尽管“拖延”一词的频率早在19世纪中期就达到了顶峰,但自2000年以来一直在攀升。

© . All rights reserved.