关键的顿悟发生在我悠闲地骑自行车下班回家的路上。那是2008年的情人节。当我沿路巡航时,我的思绪一直在思考一个困扰我和我所在领域其他人十多年的问题。是否有可能在软件中模拟生命——包括所有奇妙、神秘且令人恼火的复杂生物化学,使其能够运作?
一个可用的活细胞计算机模型,即使它有些粗略且不太准确,也将是一个非常有用的工具。研究生物学家可以在实验室实际进行实验之前,先尝试实验的想法,从而节省时间和金钱。例如,药物开发人员可以通过锁定最能破坏细菌的分子来加速寻找新型抗生素。像我这样的生物工程师可以移植和重组虚拟微生物的基因,以设计具有特殊性状的改良菌株——例如,在感染特定病毒时发出荧光的能力,或者可能从石油中提取氢气的能力——而无需改变真实微生物所涉及的风险。最终,如果我们能够学会制造足够复杂的模型来模拟人类细胞,这些工具可以通过为研究人员提供一种进行目前不切实际的研究的方法来改变医学研究,因为许多类型的人类细胞无法培养。
但是,如果没有一种实用的方法来解开使活细胞运转的相互关联的化学反应和物理连接网络,这一切似乎都是白日梦。我和斯坦福大学实验室以及其他人的许多先前尝试都遇到了障碍;有些甚至彻底失败了。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。
但是,当我在那个冬日傍晚慢慢骑车穿过校园时,我想到了我最近一直在做的记录单个活细胞图像和视频的工作。就在那时,我灵光一闪——一种制作逼真、功能性模拟器的方法:选择最简单的单细胞微生物之一,一种叫做生殖支原体 (Mycoplasma genitalium) 的细菌,并构建单个细菌的模型。将模拟限制为仅一个细胞将大大简化问题,原则上,我们可以包含已知发生在该细胞中的所有生物学知识——其扭曲的 DNA 梯子的每一阶梯的解旋,DNA 中每条信息转录成 RNA 副本,由这些 RNA 指令制成的每种酶和其他蛋白质的制造,以及所有这些参与者和许多其他参与者之间的相互作用,所有这些都构建起来,使细胞生长并最终分裂成两个“子细胞”。该模拟将几乎从第一原理生成单细胞生命的整个过程。
先前的尝试总是试图模拟整个细胞群落,因为我们拥有的关于细胞行为的几乎所有数据都是这样收集的:来自种群,而不是个体。然而,生物技术和计算领域的进步已经开始使单细胞研究变得容易得多。现在,我意识到,手头已经有了尝试不同方法的工具。
各种想法在我脑海中盘旋。我一到家,就开始勾勒模拟器的计划。第二天早上,我开始为生活微生物中发生的许多不同过程中的几个编写软件代码。一周之内,我已经完成了几个原型模块,每个模块都是特定细胞过程的软件表示。这些模块产生的输出看起来相当逼真。
我向少数其他生物学家展示了这项工作。他们中的大多数人认为我疯了。但我感觉我有所发现,两位杰出而大胆的博士生乔纳森·R·卡尔 (Jonathan R. Karr) 和贾约迪塔·C·桑维 (Jayodita C. Sanghvi) 在这种方法中看到了足够的潜力,他们同意与我一起参与这个项目。
完成这个模型意味着创建数十个这样的模块,梳理近 1,000 篇科学文章以获取生化数据,然后使用这些值来约束和调整数千个参数,例如酶与其目标分子的结合程度以及读取 DNA 的蛋白质相互碰撞双螺旋的频率。我怀疑,即使有合作者和研究生的勤奋帮助,该项目也需要数年时间——但我也预感到,最终它会奏效。除了尝试之外,没有办法确定。
[分隔符]
一项宏伟的挑战
当我们将目光投向攀登这座高峰时,我们从最早梦想模拟生命的研究人员那里获得了灵感。1984 年,时任耶鲁大学的哈罗德·莫罗维茨 (Harold Morowitz) 概述了总体路线。他当时观察到,生物学家能够培养的最简单的细菌,支原体,是一个合乎逻辑的起点。除了非常小且相对简单之外,两种支原体还会引起人类疾病:性传播的寄生性细菌生殖支原体 (M. genitalium),它在阴道和尿道中繁殖,以及肺炎支原体 (M. pneumoniae),它会导致行走性肺炎。任何一种物种的模型都可能在医学上非常有用,并且可以深入了解基础生物学。
莫罗维茨提出,第一步应该是对选定微生物的基因组进行测序。J·克雷格·文特尔 (J. Craig Venter) 和他在基因组研究所 (TIGR) 的同事于 1995 年完成了生殖支原体 (M. genitalium) 的这项任务;它只有 525 个基因。(相比之下,人类细胞有 20,000 多个。)
四年后,当我在圣地亚哥读研究生时,TIGR 团队得出结论,只有大约 400 个基因对于维持生命是必不可少的(只要微生物在丰富的培养基中生长)。文特尔和他的同事继续创立了塞雷拉公司 (Celera),并与联邦政府竞争对人类基因组进行测序。他们合成了支原体 (Mycoplasma) 物种的必需基因,并证明它们在细胞中发挥作用。
对于 20 世纪 90 年代末的我和其他年轻生物学家来说,这个团队就像齐柏林飞艇乐队 (Led Zeppelin):不落俗套、个性张扬,演奏着我们从未听过的音乐。文特尔乐队的生物学家之一克莱德·哈钦森 (Clyde Hutchinson) 表示,我们对简单细胞理解的最终考验将是有人在计算机中建模一个细胞。您可以在实验室中通过组合各个部分来构建功能性细胞,而无需了解它们如何组合在一起的每个细节。软件并非如此。
莫罗维茨也呼吁基于支原体 (Mycoplasma) 的基因组数据构建细胞模拟器。他认为,“可以在实验室中进行的每项实验也可以在计算机上进行。这些[实验和模拟结果]的匹配程度衡量了分子生物学范式的完整性”——我们关于细胞中的 DNA 和其他生物分子如何相互作用以产生我们所知的生命的有效理论。换句话说,当我们把拼图拼在一起时,我们的理论遗漏了哪些部分以及哪些相互作用就变得更加明显。
尽管高通量测序仪和机器人实验室设备大大加快了寻找缺失部分的步伐,但它们产生的 DNA 序列和基因活动模式的洪流并没有解释所有部分如何组合在一起。先驱遗传学家悉尼·布伦纳 (Sydney Brenner) 将此类工作称为“低投入、高通量、无产出”生物学,因为实验往往不是由假设驱动的,并且对使生命发挥作用或发生故障的更大系统产生的见解令人失望地少之又少。
这种情况部分解释了为什么,尽管头条新闻经常宣称发现了与癌症、肥胖症或糖尿病相关的新基因,但这些疾病的治疗方法仍然令人沮丧地难以捉摸。似乎只有当我们解开数十甚至数百个有时以违反直觉的方式相互作用以导致这些疾病的因素时,治疗方法才会出现。
细胞建模的先驱们明白,包含所有细胞成分及其相互作用网络的整个细胞模拟将成为理解此类杂乱、零碎数据的强大工具。就其本质而言,整个细胞模拟器会将关于细胞内部发生的情况的一整套假设提炼成严格的数学算法。在期刊文章中经常看到的卡通式草图,显示因子 X 以某种方式调节基因 Y……对于软件来说,远不够精确。程序员将这些过程表示为方程式——一个更简单的例子是 Y = aX + b——即使他们必须对诸如 a 和 b 等变量的值进行有根据的猜测。这种对精确性的要求最终揭示了必须进行哪些实验室实验来填补对反应速率和其他数量的知识空白。
与此同时,很明显,一旦模型被验证为准确,它们将取代某些实验,从而节省昂贵的“湿”实验工作,以解决仅靠模拟无法回答的问题。模拟实验产生令人惊讶的结果将有助于研究人员确定研究的优先顺序并加快科学发现的步伐。事实上,模型为解开因果关系提供了如此诱人的工具,以至于 2001 年,日本庆应大学的富田胜 (Masaru Tomita) 称整个细胞模拟为“21 世纪的宏伟挑战”。
当我还是一名研究生时,当时领先的细胞建模者的早期成果给我留下了深刻的印象 [见方框],我开始痴迷于这项宏伟的挑战。即使当我建立了自己的实验室并专注于开发单细胞成像技术时,这项挑战仍然萦绕在我的脑海中。然后,在那次二月的自行车回家路上,我看到了应对它的方法。
两个关键的见解
很明显,在我们能够准确模拟微生物物种的生命周期,以模拟其复杂的行为并在生物学上取得新发现之前,我们必须解决三个问题。首先,我们需要将所有重要的功能——从能量、营养物质和反应产物在细胞中的流动(即其新陈代谢),到 DNA、RNA 和蛋白质的合成和衰变,再到无数酶的活性——编码为数学公式和软件算法。其次,我们必须提出一个总体框架来整合所有这些功能。最终的问题在许多方面是最困难的:为模型中 1,700 多个参数中的每一个设置上限和下限,以便它们取生物学上准确的值——或至少在正确的范围内。
我明白,无论我们多么详尽地审查关于生殖支原体 (M. genitalium) 及其近亲的文献以获取这些参数(卡尔、桑维和我最终花费了两年时间从大约 900 篇论文中收集数据),我们都必须在某些情况下通过进行有根据的猜测或使用来自非常不同种类的细菌(例如大肠杆菌 (Escherichia coli))的实验结果来获得某些数字,例如 RNA 转录本在细胞中平均停留多长时间,然后酶将其撕裂以回收其碎片。如果没有一种约束和检查这些猜测的方法,我们就没有成功的希望。
在 2008 年的顿悟时刻,我意识到模拟单个细胞——而不是像几乎所有先前的研究那样模拟一群细胞——可以为我们提供我们需要的约束。考虑生长和繁殖。大量的细胞群落会逐渐增长;单个细胞的出生或死亡不会改变太多。但对于单个细胞来说,分裂是一个非常戏剧性的事件。在它分裂成两个之前,生物体必须使其质量增加一倍——而不仅仅是其总体质量。生存所需的 DNA、细胞膜和每种蛋白质的量都必须增加一倍。如果模型的范围仅限于单个细胞,计算机实际上可以计数和跟踪整个生命周期中每个分子的数量。它可以检查当一个细胞变成两个细胞时,所有数字是否平衡。
此外,单个细胞基本上以设定的速度繁殖。例如,生殖支原体 (M. genitalium) 通常在正常的实验室环境中每 9 到 10 小时分裂一次。它很少少于 6 小时或多于 15 小时。细胞必须在这个严格的时间表上复制其所有内容的要求将使我们能够为许多变量选择合理的范围,否则这些变量将是不确定的,例如那些控制 DNA 复制何时开始的变量。
我组建了一个由物理学家、生物学家、建模师甚至一位前谷歌软件工程师组成的团队,我们讨论了使用哪些数学方法。康奈尔大学的生物医学工程师迈克尔·舒勒 (Michael Shuler) 是细胞模拟领域的先驱,他使用常微分方程构建了令人印象深刻的模型。我在圣地亚哥学习的伯恩哈德·帕尔森 (Bernhard Palsson) 开发了一种强大的技术,称为通量平衡分析,该技术在模拟新陈代谢方面效果良好。但其他人已经表明,随机机会是基因转录中的一个重要因素,而细胞分裂显然涉及细胞膜几何形状的变化;这些其他方法无法解决这些方面。即使作为一名研究生,我也意识到没有一种技术可以模拟细胞的所有功能;事实上,我的论文已经证明了一种将两种不同的数学方法链接到一个模拟器中的方法。
因此,我们决定将整个细胞模型创建为 28 个不同模块的集合,每个模块都使用最适合生物过程和我们对其了解程度的算法 [见方框]。然而,这种策略导致了数学程序的拼凑集合。我们需要以某种方式将它们缝合在一起,形成一个有凝聚力的整体。
我想起了我本科时上过的一门化学工厂设计课程。在最后的课程项目中,我们使用了一个名为 HYSYS 的强大模拟器软件包来勾勒出一个大型炼油厂。HYSYS 让我们将每个主要反应设计为在单独的容器中发生。然后,管道将一个容器的输出连接到其他容器的输入。这个框架将许多不同种类的化学操作连接成一个有序、可预测的系统。
我突然想到,如果我愿意做一个重要的简化假设:即使所有这些生物过程同时发生在活细胞中,它们的作用在不到一秒的时间内实际上是独立的,那么这种方法(经过一些修改)可能适用于我们的细胞模拟器。如果这个假设是合理的,我们可以将细胞的生命周期划分为一秒的时钟滴答,并按顺序运行 28 个模块中的每一个,持续一个滴答,然后再更新细胞变量池。该模型将捕捉生物化学的所有相互关联性——例如,基因转录和 DNA 合成对新陈代谢产生的能量和核苷酸的依赖性——但仅在大于一秒的时间尺度上。
我们没有理论证明这会奏效。这是一个信仰的飞跃。
在构建我们的虚拟细胞时,我们在软件中安装了传感器来测量细胞内部发生的情况。模拟器的每次运行,涵盖单个细胞的整个生命周期,都会产生 500 兆字节的数据。数值输出流入一种仪表板——一系列数十张图表和可视化效果,打印出来后,完全填满了一个活页夹。
最初的结果令人沮丧。几个月来,当我们调试代码、改进数学模型并为参数添加更多更好的实验室衍生约束时,细胞拒绝分裂或行为异常。有一段时间,它产生大量的氨基酸丙氨酸,而几乎没有其他物质。
然后,有一天,我们的控制论细菌达到了其细胞周期的末尾并成功分裂。更令人兴奋的是,倍增时间约为 9 小时,就像活着的生殖支原体 (M. genitalium) 一样。许多其他读数仍然相差甚远,但那时我们感觉成功指日可待。
几个月后,我在马里兰州贝塞斯达参加为期两天的会议,会议期间我被叫到酒店前台。
“科弗特博士?这是您的包裹。”
回到我的房间,我打开盒子,拉出一个活页夹。当我花接下来的几个小时翻阅数百页的图表和复杂的可视化效果时,我的心开始狂跳。绝大多数数据看起来都像人们期望从实际生长的细胞中看到的那样。其余的数据也很有趣——出乎意料,但在生物学上是合理的。那时我知道我们已经登上了多年前就显得如此高耸的山峰。首个完整活生物体的计算机模型已经启动并运行。它会教会我们什么?
洞悉细胞生命的窗口
在使用我们的新工具大约一年后,每次当我们窥视虚拟微生物的工作原理时,我们仍然会看到令人着迷的事情,因为它处理了生活和繁殖中涉及的数百万个细节。我们惊奇地发现,蛋白质敲掉彼此 DNA 的频率令人震惊地高——在每个九小时的生命周期中大约发生 30,000 次。我们还发现,微生物非常稳定的倍增周期实际上是一种涌现特性,它源于复制的两个不同阶段之间复杂的相互作用,每个阶段的持续时间都独立地变化很大。细胞行为的逐秒记录使我们能够解释为什么当某些基因被禁用时细胞会立即停止分裂,但当其他必需基因被关闭时,细胞会再繁殖 10 次才死亡。只要细胞储存的由基因产生的蛋白质副本多于其在一个生命周期中所需的副本,额外的副本就会传递给其后代,后代只有在最后耗尽储存时才会死亡。这些初步结果令人兴奋,但我们可能需要数年时间才能理解这些模拟正在告诉我们关于这些微生物以及一般细胞如何运作的一切信息。
我们对生殖支原体 (M. genitalium) 的研究只是模拟基因和分子水平的人类细胞或组织的第一步。我们今天拥有的模型远非完美,而且支原体是自我维持生命形式中最简单的。我们已将所有模拟、源代码、知识库、可视化代码和实验数据在网上免费提供,我们和其他研究人员已经在努力改进模拟器并将其扩展到各种生物体,例如大肠杆菌 (E. coli) 和酵母 (Saccharomyces cerevisiae),这两种生物体在学术界和工业实验室中都很常见。
在这些物种中,基因的调控要复杂得多,并且事件发生的细胞内位置也重要得多。当这些问题得到解决后,我预计下一个目标将是小鼠或人类细胞:最有可能的是一种细胞,例如巨噬细胞(免疫系统中的攻击细胞),可以很容易地培养并用作调整和验证模型的测量来源。
我无法猜测我们今天离这种技术有多远。与细菌相比,人类细胞具有更多的区室,并且表现出更大的遗传控制,其中大部分仍然是神秘的。此外,作为多细胞组织内的团队成员,人类细胞比细菌更密切地与其他细胞类型相互作用。
在 2008 年 2 月 13 日,我会说我们离模拟最简单细胞的目标至少还有十年,我甚至不会考虑尝试模拟更复杂的东西。现在我们至少可以设想尝试模拟人类细胞——即使只是为了看看软件如何失败,这将阐明我们仍然需要了解的关于我们自己细胞的许多事情。即使这样也将是一个非常大的进步。