本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点。
埃雷兹·利伯曼·艾登是一位健谈、风趣的家伙,他会在任何智力话题上滔滔不绝。只是别问他做什么的。“这实际上是我经常遇到的最难的问题,”他说。“我真的没有什么可以说的。”
很容易理解为什么。艾登是一名科学家,是的,但当他的大多数同行都待在特定的领域——比如神经科学或遗传学——时,艾登却几乎随意地跨越了这些领域。他的研究涉及分子生物学、语言学、物理学、工程学和数学。他是去年“文化组学”研究的幕后人物,他通过有史以来出版的所有书籍的 4% 来观察人类文化的演变。在此之前,他解决了人类基因组的三维结构问题,研究了动词的数学原理,并发明了一种名为 iShoe 的鞋垫,可以诊断老年人的平衡问题。“我想我只是把自己看作一名科学家,”他说。
他的方法与标准的科学职业生涯形成鲜明对比:找到一个感兴趣的领域,并对它越来越了解。艾登不是从一个中心专业分支出来,而是对跨越不同学科界限的“跨学科”问题感兴趣。他的方法是游牧式的。他四处走动,寻找能够激起他的好奇心、拓展他的视野并有望产生重大影响的想法。“我不认为自己是某种特定技能或方法的实践者,”他告诉我。“我不断地在寻找我最有可能从事的最有趣的问题。我真的试图弄清楚为了解决我感兴趣的问题,我需要成为什么样的科学家。”
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于当今塑造我们世界的发现和想法的具有影响力的故事的未来。
这是一种已经获得回报的哲学。艾登年仅 31 岁,在麻省理工学院和哈佛大学拥有一间联合实验室。2010 年,他赢得了著名的 3 万美元的麻省理工学院-莱梅尔森奖,该奖项颁发给那些表现出“卓越创新和创造力组合”的人。他有七篇出版物,其中六篇发表在世界顶级的两家期刊——《自然》和《科学》上。他的朋友兼同事 让-巴蒂斯特·米歇尔 说,“他真是独一无二。我只是好奇他会在哪个学科获得诺贝尔奖!”
当我在哈佛大学见到艾登时,他穿着休闲的运动衫、斜纹棉布裤和运动鞋。他语速很快,但表达流畅,既放松又高度专注。他办公室的门上写着“艾登实验室”,打开后感觉更像一个休息室。这里没有长凳和凳子,取而代之的是舒适的沙发、扶手椅、几台电脑和一台大电视。除了成堆的零食外,这个空间非常简洁。墙上没有照片。三排架子基本上是空的。桌子上没有任何负担。就好像房间,就像他本人一样,没有被过去所束缚。
艾登没有专注于任何一个领域,而是采取了相反的做法。他自然而然地被那些他知之甚少的问题所吸引。“原因在于大多数项目都会失败,”他说。“如果一个你了解很多的项目失败了,你什么也没得到。如果一个你了解较少的项目失败了,你可能会有一堆新的、更好的想法。”艾登习惯于将他的失败作为成功的跳板。
*****
2005 年,艾登对我们制造抗体的方式着迷。抗体都非常相似,但它们的尖端——识别入侵者的部分——差异极大。这些是通过基因混合匹配产生的——来自三个组的基因,每个组都有许多不同的成员,以 1 亿种不同的组合之一结合在一起。这些大量的排列组合提供了我们所需的种类,以应对来自细菌、病毒、寄生虫、肿瘤细胞等的大量威胁。“免疫系统不断地动态创建特定于体内出现的事物的基因。这太神奇了,”艾登说。他的目标雄心勃勃但很简单:对这些基因进行编目并对人类免疫系统进行测序。
他失败了。“问题在于所有基因都非常非常相似,”他说。对基因进行测序不像从头到尾阅读文本。这更像是查看孤立的句子片段,并试图将它们连接成原始叙述。如果这些句子都包含大致相同的词,那么这项任务就会变得非常困难。“在某个时候,我们只是意识到数据不够好。那是一场灾难——它占用了我 18 个月 85% 的时间。那是一次史诗般的失败。”
但这并不是一个浪费的机会。2007 年,艾登对抗体的兴趣将他带到了一场免疫学会议,他在那里意外地进入了错误的演讲。在这次计划外的漫步中,艾登找到了启发,这将导致他解决人类基因组的三维结构。
演讲者艾米·L·肯特正在讨论我们基因之间的物理距离。我们每个细胞都有一个令人羡慕的任务,即将两米长的 DNA 折叠成一个直径短约一百万倍的腔室。他们通过将 DNA 折叠成复杂的形状来实现这一点,这是一项折纸技巧,通常会将遥远的基因变成近邻。在艾登走错的演讲中,他了解到这些距离很难计算。人们会花费长达六个月的时间来计算两个位点之间的距离。“这促使了一种本能的反应,”他说。“我完全相信他们正在做的事情可以做得更好、更快。”
为了加快这一过程,艾登发明了一种名为 Hi-C 的技术,该技术可以同时识别整个基因组中的相邻位点。首先,他用甲醛对基因组进行防腐处理。这种化学物质会在彼此相邻的不同 DNA 片段之间建立物理桥梁,从而将基因组冻结在其所有的曲折之中。特殊的酶会切碎 DNA,然后将片段分离、测序并映射到人类基因组的参考副本上(观看艾登通过舞蹈媒介展示该技术)。结果是一个庞大的相互作用 DNA 库——一个基因社会网络。然后,艾登可以算出基因组必须如何折叠才能容纳这些相互作用。
他发现了一些奇怪的事情。聚合物——长链分子,如 DNA——倾向于以可预测的方式折叠。它们应该形成称为“平衡球”的密集包装和打结的束(视频)——想想一盘煮熟的面条,或者在口袋里放太久的耳机。但是 Hi-C 结果与这种形状不兼容;它们表明基因组正在做一些不同的事情。起初,艾登认为他的技术失败了,结果是如此怪异。他开始如饥似渴地阅读,吸收他能找到的所有关于聚合物物理学的知识。而且每一个来源都指向相同的结论:他的结果似乎违反了既定的物理原理。
他的突破发生在深夜。他发现了一位名叫亚历山大·格罗斯伯格的物理学家撰写的一篇论文,他描述了一种叫做“分形球”的形状(视频)。它也是一个密集包装的束,但与平衡球不同,它没有单个结。这些链可能会循环和扭曲,但它们永远不会交叉和缠结。艾登将其比作未煮熟的面条——你可以拉出一根而不会破坏其余的面条。
分形球最早是由一位名叫朱塞佩·皮亚诺的意大利数学家在 1890 年描述的,但这完全是理论上的。格罗斯伯格花了将近一个世纪的时间才(在 1988 年)提出,如果条件合适,真实的聚合物可能会折叠成分形球。2009 年,艾登证明他是对的。“我读了[格罗斯伯格的论文],我立刻想:这解决了问题!”分形球作为基因组的形状是完全合理的。由于没有缠结,任何 DNA 片段都可以很容易地暴露出来,从而可以转录和使用其信息。“那是我在智力上最激动人心的时刻之一,”艾登说。
据所有人所知,分形球是皮亚诺想象中才存在的假设形状。艾登表明它存在于每个曾经走过地球的人类体内。他带着一丝嘲讽的微笑告诉我,“一个人没有理由期望一个人的数据会恰好与某个古老的已死假设相一致,而这个假设最终会比占主导地位的想法更加美好。这简直就是天上掉馅饼。”
*****
所有这一切都来自于关于抗体的失败项目。艾登的剪切室里堆满了同样雄心勃勃的关于中国象形文字演变或人们互相起诉的网络分析的死项目。在大多数情况下,它们只是变得太无聊而无法继续,但像 3D 基因组这样的罕见案例确实成功了。“最好的问题类型是那些乍一看比你考虑时更难的问题。如果你有十个这样的项目,其中一个成功了,那就很好了,因为很多人认为该项目不太可能成功,而且他们不知道你尝试了十个这样的项目,”他说。
“失败自然而然地会带来新的成功和机会。这就是为什么在一个新领域获得一些失败经历是很好的。免疫学项目是我真正投入的第一个大型基因组学项目,而我在那次失败过程中获得的所有工具,事实证明在 3D 基因组测序中非常有用。”
在许多方面,3D 基因组项目概括了艾登多样化作品中贯穿的许多主题。他非常相信技术进步的力量。“当代科学的很大一部分实际上是我们应用的技术的长度和阴影,”他说。通过发明 Hi-C 技术,他可以提出以前根本无法回答的关于基因组的问题。“我一直在寻找我认为将开启全新领域的新方法。”特别是,他喜欢在没有任何先入为主的观念的情况下积累大量数据。“对我来说,眼见为实。当我开始查看数据集时,我很少有任何假设。我只是想看看哪些特征会跳出来。”
艾登的思维方式是家族式的。他的儿子加布里埃尔·伽利略才一岁,也和他父亲一样有雄心壮志。“他正在弄清楚挑战人类的基本问题。花费数十亿年的时间来弄清楚如何用双脚保持平衡,而他就像,‘嗯,那是星期四的事’。”
艾登从小就从他的父亲——一位名叫亚伦·利伯曼的科技企业家——那里学到了保持好奇心和全面发展的重要性。“我花了很多天,甚至暑假都和他一起在他的工厂里工作,”艾登说。“我父亲总是强调,一个人可以通过将想法变成现实来养活自己。他给了我很多自信。这很有帮助,因为当你在工作中突然改变主题时,你所带走的只有你的头脑和你对自己解决问题的能力的信心。”
作为一名本科生,他在普林斯顿大学学习了数学、物理和哲学。“我的理由是,我将能够从第一性原理弄清楚宇宙,并做出所有后续的人生决定,”他笑着说。“这是一种在高中时对你来说有意义的事情。哦,是的,一切都将简化为量子力学,你可以解决它……无论如何,那是一个灾难性的失败。”再一次,寻求“调试这个失败”的努力导致了一些有趣的事情。
“事实证明,你无法从第一性原理弄清楚一切,因为似乎发生了很多事情,而且我在 1980 年出生之前对宇宙一无所知,”他干巴巴地说。“所以我想我必须去了解那些东西。”为了做到这一点,他在纽约的叶史瓦大学花了一年时间攻读历史硕士学位。他上了从现在倒溯到过去的课程,从古代史向前阅读(他现在可以阅读亚拉姆语),并在两条时间线在 17 世纪相遇时停止。
最终,艾登回到了科学领域,在哈佛大学获得了应用物理硕士学位,并在哈佛大学和麻省理工学院获得了应用数学和生物工程博士学位。但是,他对人文学科的涉足从未离开他的身边。他迄今为止最雄心勃勃的项目——文化组学——很大程度上是所谓的“两种文化”的融合。
*****
再一次,它始于一次谈话,这次是史蒂芬·平克。平克提到,虽然只有百分之三的英语动词是不规则的(例如“be”或“do”),但它们是最常用的动词。所有十个最常用的动词都是不规则的。对于长期以来一直在思考如何以数学方式研究文化的艾登来说,这个琐事是不可抗拒的。他与让·巴蒂斯特·米歇尔一起绘制了不规则动词的演变轨迹,从 9 世纪的《贝奥武夫》到 13 世纪的《坎特伯雷故事集》,再到 21 世纪的《哈利波特》。他们专注于 177 个不规则动词,发现它们随着时间的推移会“规则化”,而较少见的动词会更快地符合规则。(在这段早期视频中听他谈论他的项目)。
更令人惊讶的是,这种符合规则的道路可以用一个非常简单的数学公式来描述。动词的规则化方式“与频率的平方根成反比”。如果一个动词的使用频率比另一个动词低一百倍,它就会快十倍地规则化。如果它的使用频率低一百万倍,它就会快一千倍地规则化。根据动词出现的频率,你可以预测它何时会屈服于规则。“read”不太可能很快变成“readed”,但“burnt”正在迅速被“burned”所取代。
结果令人着迷,但搜索旧书是一项令人羡慕的任务。“数据收集花了一年半的时间。这非常痛苦,而且是一次孤注一掷的尝试,因为我们从来不知道它是否会奏效,”艾登说。“最后,我们说,我们再也不能这样做了。”幸运的是,他们再也不需要这样做了。当论文即将付印时,艾登回去检查他的中古英语文本,以核实他的事实,并意识到,与此同时,其他人已经把它们取走了——谷歌。
2004 年,谷歌开始数字化世界上的书籍,这是一项雄心勃勃的项目,此后扫描了来自 40 多所大学图书馆的 1500 多万本书。这个在线语料库代表了有史以来出版的所有书籍的 12%,这是人类文化的大量电子记录。“在某种程度上,这非常令人尴尬,”艾登说。“我们意识到我们的方法已经完全过时了。很明显,你无法与这个数字化巨头竞争。”
因此,艾登和米歇尔没有竞争,而是决定加入他们。他们的想法很简单:他们会使用谷歌语料库中的词语来追踪文化随时间变化的路径,就像古生物学家使用化石来推断生物的进化一样。谷歌的研究主管彼得·诺维格从第一次会议就被说服了。
随着项目的优点变得清晰,公司的承诺(及其资金)也在增加,但仍存在严重的障碍。“在项目进行到一半时,谷歌被所有人起诉,”艾登说。“这没有任何帮助。”数据也存在问题。在某些情况下,扫描不够清晰,而在另一些情况下,诸如出版日期之类的“元数据”通常不准确。这意味着像“互联网”这样的词语会在这种东西出现之前就出现。
花了整整一年的时间来清理数据,但仍然存在缺陷。最终,艾登和米歇尔将自己限制在语料库的三分之一——大约 500 万本六种语言的书籍。他们提取了数十亿个单词和短语(“n 元语法”),并追踪了它们随时间变化的频率,将所有内容编译成一个任何人都可以下载和探索的大型数据集。
当时,艾登写道,“这些共同提供了一个巨大的骨骼宝库,从中可以重建一门新科学的骨架。”他将这门科学命名为“文化组学”——对人类文化进行定量研究。它被设想为人类基因组计划的文化等价物——一个数据宝库,供学者或更休闲的用户通过谷歌流行的n 元语法查看器进行仔细研究。
米歇尔和艾登于2010 年向世界展示了文化组学,并发表了一篇论文,提供了 n 元语法潜力的品尝拼盘。它展示了英语词汇的扩展性质及其语法的演变性质。它显示了“男人”和“女人”在频率上的趋同,新技术以越来越快的速度渗透到文化中,以及名人攀升到越来越高的名望顶峰,但从这些顶峰跌落的速度也更快。它甚至揭示了压制和审查的痕迹——在 1989 年之后,“天安门广场”可疑地从中文文本中消失了,纳粹德国时期的犹太艺术家和学者也从德语文本中消失了。
新方法令人大开眼界,但它不可避免地会引发争议。“人文学科内部存在重要的子群体,他们对此感到愤怒,”艾登说,“因为这篇论文中没有人文主义者或历史学家。”这种批评对一个经常从一个领域跳到另一个领域的人来说是令人困惑的。“[资格]我从来没有觉得它是一个相关的东西,”他说。相比之下,当他发表 3D 基因组论文时,他获得的最高学位是历史硕士学位。“在科学界没有人关心!”
其他批评者则专注于数据的问题,n 元语法查看器的用户自己也发现了这些问题。艾登对此感到沮丧。“我们在论文中说过,1800 年到 2000 年范围之外的数据存在巨大的问题,但这就像如果你得到一台 TiVo 或 Wii,你不会花时间阅读说明书。你只是想玩它。我希望那些认真对待这项工作的人最终会认识到该工具的价值。”
当然,有几个人这样做了,艾登有很多例子可以证明该项目在他眼中的价值。“[亚历克西斯·马德里加尔] 在《大西洋》上,没有写一篇关于核时代的专栏文章,而是收集了一堆关于它的 n 元语法。这些东西非常清晰、直观和透明,人们会了解到这是一种让公众了解一些历史的方式。”
也有更实质性的用途。维基百科比较了他们关于科学家的文章的质量与这些科学家通过 n 元语法衡量的知名度。“效果很明显。更有名的人有更好的维基百科文章。这是一个很好的控制。这表明他们的编辑对什么重要有很好的认识。”但分析发现了一些更不寻常的事情。它表明,女性科学家的文章系统性地比她们同等著名的男性同行的文章差。“人们谈论说,15% 的维基百科编辑是女性,这有可能给维基百科本身带来如此多的偏见。你可以推测这一点,但现在你可以衡量和检查它。”
*****
艾登并没有完成文化组学的研究。他和米歇尔现在是谷歌的客座教授(“我们可以访问他们几乎所有的数据,这打开了很多大门”)。他们在哈佛大学成立了一个名为文化观察站的组织,旨在创建更强大的数据集,例如为文化组学提供支持的数据集。艾登甚至正在研究一个音乐版本,该版本会考察不同时期的乐谱。
再一次,数据质量是一个大问题——乐谱的注释很差——但再一次,艾登在不相关领域的经验正在产生意想不到的好处。他在从事失败的免疫学项目时解决的一个技术难题,结果与注释乐谱的问题“完全相同”。“我看到这一点是因为我曾在另一个领域工作过,投入了大量的时间并且了解它。”这些时刻证明了他游牧生涯的合理性。“如果我们在一个房间里,我们在谈论 X,X 专家会比我更了解 X,但我会更了解非 X。每隔一段时间,一些非 X 的东西就会变得非常相关。”
这显然是有代价的:在一个新领域很难立刻上手,艾登经常发现自己需要赶进度。 但对他来说,更广阔的视野弥补了这一缺点。“人们对发明家有一种浪漫的幻想,认为他们是躲进山洞,然后拿出完全新颖的惊人事物的人。我认为,大量的发明在于认识到A和B能够很好地结合在一起,将它们结合起来,从而得到更好的东西。 限制因素是知道A和B的存在。 这也是一个专家的一大劣势——你会逐渐看不到周围的事物。 我觉得我只是看到了更多。”
艾登的方法可以追溯到科学的早期时代,那时像莱布尼茨和牛顿这样的博学家在不同领域都备受尊敬。 这样的人在当今世界很少见,科学知识的不断拓展将科学家们推向了狭隘的专业领域。 知识的游牧民正在被挤压。
但是艾登感觉到这种平衡正在发生变化,而互联网的连接力量在其中发挥了重要作用。“三十年前,你不知道另一个领域在发生什么,而且你也没有谷歌。 可能需要几个月才能弄清楚一个想法是好是坏。 现在,你可以在几分钟内很好地了解这一点,因为信息更容易获取。 这真的非常非常重要。 它使得从一个领域转移到另一个领域变得容易得多。”
信息的自由流动不仅使得更容易弄清哪些问题是可用的且易于处理的,而且还清楚地表明仍然存在多少问题,足以填满一个学科跳跃的丰富职业生涯。“我从研究生院毕业时感觉一切都已经被完成了,”艾登说。“现在,我认为,哇,我们什么都还不知道。”
*****
关于作者:艾德·杨是一位屡获殊荣的英国科学作家。他撰写了博客Not Exactly Rocket Science,他的作品也曾发表在《新科学家》、《泰晤士报》、《WIRED》、《卫报》、《自然》、《每日电讯报》、《经济学人》等刊物上。他的推特账号是@edyong209。
所表达的观点是作者的观点,不一定是《大众科学》的观点。