“写这张便条的人是德国人。你注意到这句话的特殊结构了吗?” 这些是夏洛克·福尔摩斯在《波西米亚丑闻》中分析一位客户的便条时说的话,揭露了化名隐藏的波西米亚国王,并且顺便确立了自己作为一位杰出的文学分析师的地位。任何秘密都无法逃过传奇人物夏洛克·福尔摩斯的眼睛,他可以从一滴水中窥见大海。正如纸上会留下皇家手指的印记一样,对于熟练的读者来说,文字也留下了皇家思想的印记。
随着文体学(研究写作风格的科学)的进步,虚构已逐渐变成现实。1964 年,弗雷德里克·莫斯特勒和戴维·华莱士发表了一项关于《联邦党人文集》中常用词语分布的三年研究,表明亚历山大·汉密尔顿和詹姆斯·麦迪逊的写作风格存在细微差异。例如,只有麦迪逊使用了“whilst”一词(汉密尔顿则使用“while”代替)。更微妙的是,虽然汉密尔顿和麦迪逊都使用了“by”一词,但麦迪逊的使用频率更高,以至于可以通过观察该词的使用频率来猜测谁写了哪篇文章。莫斯特勒和华莱士将这项工作进行了总结,并能够证明某些“有争议”的文章(汉密尔顿和麦迪逊都声称是自己所写)极有可能出自麦迪逊之手。如今,计算机可以在几秒钟内完成这种类型的分析,无论是揭露伪装成自杀的谋杀案,研究一首匿名的中世纪诗歌,解决关于作者署名的争议,甚至为难民提供政治庇护。例如,在最后一个案例中,一位批评压迫性外国政府的人以他在网上撰写和发表的文章为依据申请政治庇护。然而,问题在于这些文章是以匿名方式发表的。在仅仅凭借怀疑就足以监禁的地方,这不一定会阻止压迫性的秘密机构。但是这项技术能够让移民法官相信这些文件的作者身份,从而让他留下来。
在过去十年中,我开发了一个计算机程序,基于数百万种不同的特征,进行这种写作风格分析。该程序将获取一段写作样本,并根据相似性确定一组作者中最有可能撰写该样本的人。今年 7 月,我收到伦敦《星期日泰晤士报》一位记者的电子邮件,询问我是否可以帮助他们解开一个谜团。记者收到消息,J.K. 罗琳秘密地以笔名写了一本小说:《布谷鸟的呼唤》,作者是罗伯特·加尔布雷思,据称是皇家宪兵队的前成员,其小说“直接来源于他自己及其军事朋友的经历”。这个消息至少是可信的。罗琳和加尔布雷思拥有相同的经纪人和编辑。这本书对于一位所谓的首次小说家来说,完成度异常之高。而加尔布雷思,一个表面上在军中服役多年的人,却非常擅长描写女性的服装。但是仍然缺乏确凿的证据。记者想知道计算机程序可以确定什么。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保关于当今塑造我们世界的发现和想法的具有影响力的故事的未来。
语言使用是一系列个人选择。例如,英语提供了大量的词汇来描述比大还大的东西,例如“huge”、“giant”、“enormous”或“colossal”。作家可以选择用一些精确的词或一堆常见的通用词来表达一个想法,同样可以将一个复杂的想法分解成或不分解成便于理解的简单句子。我们甚至没有意识到许多这些选择。
在一项著名的实验中,心理学家表明,人们对句子的整体意义的记忆比他们逐字回忆句子的能力要好得多。例如,听到这句话的人——“浣熊爬上了树,狗在它们周围跑来跑去”——几分钟后被问及他们是否听过这句话:浣熊爬上了树,狗在它周围跑来跑去。如果您阅读速度很快,您可能没有注意到最后一个词的细微变化。大多数受试者也无法区分。只要人们理解句子的含义(狗在一些浣熊所在的一棵树周围跑来跑去),人们就不会太在意这些常见的微小词语,但是作者的指纹在代词的选择中是可见的。
我开发的程序 JGAAP(Java 图形作者归属程序)对大量特征的相似程度进行数学分析,这些特征太多了,任何人工分析员都无法跟踪。例如,莫斯特勒和华莱士研究了大约三十个不同的词。JGAAP 可以跟踪一组百科全书中的每个词。通过查看加尔布雷思的语言选择,该程序可以量化罗琳和加尔布雷思之间的相似程度。如果他们完全不同,这可以有效地排除罗琳作为作者的可能性,并使该消息失效。如果他们非常相似,尤其是与其他同类型作者相比,则表明她很可能是作者。虽然这不能证明罗琳写了这本书,但它将是客观证据的有力形式。
仔细决定要查看哪种相似之处非常重要。并非所有选择都是平等的;某些选择(例如词长)比其他选择(例如介词的使用)更容易被注意到、控制和更改。检查多种不同的特征通常比仅检查少数特征更好,并且运行多次分析以查看它们是否一致。对于此分析,我选择了四组独立的特征,这些特征已被证明可以提供有关作者身份的有用信息。同样重要的是,它们彼此之间也相对独立,因此它们可以相互交叉检查。例如,我使用的一个变量是词长的分布。每本小说都有很多词,每个词都有一个长度,因此可以获得一个可靠的描述,即本文档中如此这般的百分比的词具有如此这般数量的字母。我能够获得相似性的度量,其中 0.0 代表相同,数字越高表示差异越大。
另一个特征是 100 个最常见的词。“the”占文档的百分比是多少,“of”占文档的百分比是多少等等。这又是一个可以很容易地通过计算机提取的丰富数据集。最后,我运行了两个基于作者词汇的测试。第一个测试是字符 4-gram 的分布,即四个相邻字符的组。这些可以是单词、单词的一部分(如“inside”一词中的四个字母“nsid”)甚至可以是两个单词的一部分(如短语“in the”中的四个字母“n th”)。我也运行了单词二元组的测试,即相邻单词对(如“pairs of”、“of adjacent”和“adjacent words”),这又是具有良好记录的特征。这种方法的一个优点不幸也是一个缺点。由于跟踪了数千个特征,因此很难指出任何一小部分特征并说“这些就是让它像罗琳的原因”。文体学,就像体育运动一样,通常是一寸之争。
对于这项研究,我和记者选择了一本罗琳的小说以及三位相似的小说家(均为英国女性犯罪小说家:罗琳自己的《偶发空缺》、露丝·伦德尔的《圣齐塔协会》、P.D. 詹姆斯的《私人病人》和瓦尔·麦克德米德的《血丝》)的故事,以查看哪个与加尔布雷思最相似。在这四项分析中,罗琳是唯一一位在风格上始终匹配的作家。例如,瓦尔·麦克德米德使用单词对的方式与加尔布雷思非常相似,但她对长短词语的使用与加尔布雷思非常不同。词长分布与罗琳或詹姆斯相似。
解释这些结果可能很棘手,但简单的统计数据可以说明这种匹配有多么紧密。首先,除罗琳之外的所有作者都显然被至少一项测试排除在外。无论《布谷鸟》的作者是谁,她都不是露丝·伦德尔。对于四位作者,随机选择的作者与詹姆斯最接近的可能性与与麦克德米德最接近的可能性相同,或者与罗琳不同的可能性与与伦德尔不同的可能性相同。如果作者不是这四位中的任何一位,那么她“接近”加尔布雷思(意味着列表中最有可能的两位作者之一)的可能性与“遥远”(第三或第四位候选人)的可能性相同。换句话说,如果罗琳没有写《布谷鸟》,她只有 50/50 的机会拥有相似的词长。她也只有 50/50 的机会拥有相似的词对、相似的字符簇或相似的常用词。只有 1/16 的作家“幸运”地拥有与加尔布雷思如此相似的写作风格。如果罗琳不是作者,那么爆料者只有约 6% 的机会命名一位风格如此相似的人。
这是否“证明”了罗琳的作者身份?当然不是。即使 DNA 也无法做到这一点;DNA 匹配仅仅意味着相关人员或具有相似基因(可能是家庭成员)的人参与其中。文体学的可靠性和准确性远不如 DNA——毕竟,您的 DNA 在您的一生中是恒定且绝对不变的,但如果两本小说完全没有变化,它们将是同一本小说。我们真正知道的是,它要么出自罗琳本人之手,要么出自一位与罗琳写作风格非常相似的人之手。但这对于《星期日泰晤士报》联系她的经纪人来说已经足够了。2013 年 7 月 13 日,她承认《布谷鸟的呼唤》是她的作品,她希望通过以笔名出版来获得没有期望的反馈。
这项技术显然是一把双刃剑。如果可以通过计算机分析来识别罗琳,那么举报人呢?是否有人可以免受现代版夏洛克无所不见的眼睛的窥探?目前,是的。真正侵犯罗琳隐私的人不是我的计算机,甚至不是《星期日泰晤士报》的记者,而是首先建议进行调查的爆料者。查看每个潜在的作者以查看谁可能写了一本书是不可行的。没有传统的侦探工作(和线人),大海捞针仍然足够大,以至于针可以成功隐藏。
您是否是专门研究神经科学、认知科学或心理学的科学家?您是否读过最近发表的、您想撰写的同行评审论文?请将建议发送给“心灵事记”编辑加雷思·库克,他是一位普利策奖获奖记者,也是NewYorker.com的定期撰稿人。加雷思也是《美国最佳信息图表》的系列编辑。您可以通过 garethideas AT gmail.com 或 Twitter @garethideas联系他。