生命密码的边缘

克里斯·威金斯希望利用机器学习开发模型,预测生物体的所有基因在任何情况下的行为方式——从而精确解释为何有些细胞会生病或癌变

在前往加利福尼亚州圣巴巴拉卡弗里理论物理研究所的机场班车上,克里斯·威金斯听取了一位同事的建议,打开了一个微软Excel电子表格。这与他受邀进行的关于生物聚合物物理学的演讲无关。相反,映入他眼帘的成列成行的数字指的是出芽酵母的基因活动。具体来说,这些数字代表了酵母全部6200个基因在其繁殖周期过程中表达的信使RNA(mRNA)的量。“这是我第一次看到这样的东西,”威金斯回忆起2002年春天的那个日子。“你如何开始理解所有这些数据呢?”

哥伦比亚大学这位36岁的应用数学家和物理学家没有回避这个问题,而是欣然接受了它——六年后的今天,他认为自己找到了答案。通过涉足自身领域之外的领域,威金斯从人工智能的一个分支——机器学习中挖掘出工具,以根据真实世界的生物数据来模拟基因的集体蛋白质制造活动。工程师最初在20世纪50年代后期设计这些工具是为了根据输入预测输出。威金斯和他的同事现在已将机器学习引入自然科学,并对其进行了调整,使其不仅可以讲述关于输入和输出的故事,还可以讲述基因调控模型(两者之间的黑匣子)内部发生的事情。

这项工作的动力始于20世纪90年代末,当时高通量技术产生了比以往任何时候都更多的mRNA表达谱和DNA序列,“开辟了一种完全不同的生物现象思维方式,”威金斯说。这些技术中的关键是DNA微阵列,这是一种芯片,可以同时且在多种条件下,全景式地观察任何细胞类型中基因的活动及其表达水平。尽管数据嘈杂且不完整,但生物学家现在可以查询哪些基因在不同细胞中开启或关闭,并确定产生细胞特征(健康或患病)的蛋白质集合。


支持科学新闻事业

如果您喜欢这篇文章,请考虑订阅以支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您将帮助确保未来能够继续讲述关于发现和塑造我们当今世界的理念的具有影响力的故事。


然而,预测这种基因活动需要揭示控制它的基本规则。“随着时间的推移,这些规则已被细胞锁定,”理论物理学家哈门·布塞梅克说,他现在是哥伦比亚大学的生物学副教授。“进化保留了好的东西。”

为了找到这些规则,科学家需要统计数据来推断基因与调节它们的蛋白质之间的相互作用,然后用数学方法描述这个网络的底层结构——基因和蛋白质活动随时间变化的动态模式。但是,不研究粒子(或行星)的物理学家认为统计学简直是令人厌恶的东西。英国物理学家欧内斯特·卢瑟福曾说过:“如果你的实验需要统计学,那你应该做一个更好的实验。”

但是,在处理微阵列时,“实验是在你不知情的情况下完成的,”威金斯解释说。“生物学不会给你一个模型来理解数据。”更具挑战性的是,构成DNA、RNA和蛋白质的构建块以无数种方式组装;此外,细微不同的相互作用规则支配着它们的活动,使得将它们的相互作用模式简化为基本定律变得困难,即使不是不可能。有些基因和蛋白质甚至还不为人所知。普林斯顿大学的生物物理学家威廉·比亚莱克说:“你试图在对自然世界知之甚少的情况下找到一些引人注目的东西。”“你被迫持不可知论。”

威金斯认为,许多机器学习算法在这些条件下表现良好。他说:“当处理如此多未知变量时,机器学习让数据决定什么值得关注。”

在卡弗里研究所,威金斯开始构建酵母基因调控网络的模型——基因和调控因子共同协调DNA转录成mRNA的强度的规则集。当他使用不同的算法时,他开始参加由克里斯蒂娜·莱斯利领导的关于基因调控的讨论,莱斯利当时在哥伦比亚大学负责计算生物学小组。莱斯利建议使用一种特定的机器学习工具,称为分类器。假设算法必须区分包含自行车的图片和不包含自行车的图片。分类器筛选标记的示例,并测量它可以获得的关于它们的一切信息,逐步学习支配分组的决策规则。算法从这些规则生成一个模型,可以确定新图片是否包含自行车。在基因调控网络中,学习任务变成了预测基因是增加还是减少其蛋白质制造活动的问题。

威金斯和莱斯利于2002年秋季开始构建的算法,是在酵母在各种条件下(如寒冷、炎热、饥饿等)表达的调控因子的DNA序列和mRNA水平上进行训练的。具体来说,该算法——MEDUSA(使用序列聚集的基序元素判别)——扫描一组DNA启动子序列(称为基序)和调控因子之间的每种可能的配对。然后,就像孩子可能会通过在两者之间画一条线将单词列表与其定义匹配一样,MEDUSA找到最能改善模型与其试图模拟的数据之间拟合度的配对。(威金斯将这些配对称为边。)每次MEDUSA找到一个配对,它都会通过添加新规则来更新模型,以指导其搜索下一个配对。然后,它根据规则对现有模型的改进程度来确定每个配对的强度。数字的层次结构使威金斯和他的同事能够确定哪些配对比其他配对更重要,以及它们如何共同影响酵母6200个基因中每个基因的活动。通过一次添加一个配对,MEDUSA可以预测哪些基因会提高其RNA产量或降低产量,并揭示协调生物体转录逻辑的集体机制。

威金斯和他的同事现在可以比酵母走得更远。最近,他们已经表明,MEDUSA可以准确地构建高等生物(如蠕虫)以及包括人类淋巴细胞在内的几种细胞系中基因调控网络的预测模型。在癌细胞系中,该团队可以确定哪些基因在其应该降低活动时反而增加了活动,反之亦然。然而,最终目标是了解它们的协调活动,并使用统计数据推断哪些相互作用导致了患病细胞。

尽管MEDUSA对测试数据做出了准确的预测,但仍然无法知道它是否忠实地再现了真实的生物网络。要做到这一点,每个连接都必须经过实验测试。微阵列数据在多大程度上测量表达水平也不清楚,因此准确的预测可能不一定反映真相。此外,机器学习迫使研究人员提出可能对其结果有偏差的临时假设,“因此数据中的任何相关性都可能是侥幸,”圣地亚哥大学的约阿夫·弗罗因德评论道,他创建了MEDUSA的学习算法。

为了解决这些局限性,研究人员不仅必须继续跨学科研究,还必须愿意采用他们的工具。杜克大学的机器学习专家亚历克斯·哈特明克评论说:“我想说,机器学习在物理学界还没有像野火一样蔓延开来。”“但克里斯似乎最乐于接触和学习其他地方的技术。我认为我们需要有人去做这件事——涉足森林,寻找新的资源,并将它们带回部落,说,‘嘿,伙计们,看看这个——这真是太棒了。’”

© . All rights reserved.