在 20 世纪 70 年代,当生物学家首次瞥见人类基因的图景时,他们看到编码蛋白质的 DNA 小片段(称为外显子)似乎像木片一样漂浮在基因乱码的海洋中。地球上数十亿个其他 DNA 字母是干什么用的?就连 DNA 双螺旋结构的共同发现者弗朗西斯·克里克这位分子领域的泰斗也怀疑它“比垃圾好不了多少”。
“垃圾 DNA”这个词从此一直困扰着人类遗传学。2000 年,当人类基因组计划的科学家们展示了人类 DNA 中碱基序列或密码字母的第一个粗略草图时,最初的结果似乎证实了绝大多数序列——可能占其 32 亿个碱基的 97%——没有明显的功能。换句话说,“生命之书”看起来像是一部填充了大量内容的文本。
现在,在 9 月份发表在《自然》(《大众科学》是自然出版集团的一部分)和其他地方的一系列论文中,ENCODE 集团发布了一份令人震惊的清单,其中列出了先前隐藏的开关、信号和路标,它们像符文一样嵌入在整个人类 DNA 中。在这个过程中,ENCODE 项目正在重塑生物学家研究、讨论和理解人类遗传和疾病的词汇。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
伊万·伯尼,39 岁,来自英国剑桥的欧洲生物信息学研究所,领导了由 400 多名 ENCODE 科学家进行的基因组注释分析。他最近接受了《大众科学》的采访,谈论了主要发现。以下是节选。
大众科学:ENCODE 项目揭示了一个充满重要遗传元件的图景——一个曾经被斥为“垃圾 DNA”的图景。我们过去对基因组如何组织的看法是否过于简单化了?
伯尼:人们一直都知道那里有比蛋白质编码基因更多的东西。一直很清楚存在调控。我们不知道的是这种调控有多么广泛。
为了给您一个概念,大约 1.2% 的碱基在外显子蛋白质编码区。人们推测“可能还有同样多的碱基参与调控,或者可能稍微多一点”。但是,即使我们从 ENCODE 数据中采取相当保守的观点,我们最终也会得到大约 8% 到 9% 的基因组碱基参与了类似调控的功能。
因此,致力于基因调控的基因组比致力于蛋白质编码基因本身的基因组要多得多?
而这 9% 不可能是全部。我们采样的最激进的观点是 50%。所以肯定会超过 9%,而且很容易论证出大约 20% 这样的数字。这不是一个不可行的数字。
我们现在应该摒弃“垃圾 DNA”这个说法吗?
是的,我真的认为这个说法需要从词汇中完全清除掉。这只是一个有点随意的说法,用来描述 20 世纪 70 年代发现的非常有趣的现象。我现在确信,用它来描述正在发生的事情并不是一个非常有用的方法。
您从“垃圾”中获得的一个惊喜是什么?
在 ENCODE 内部和项目外部,一直存在着关于我们的实验结果是否描述了自然界中真正发生的事情的争论。然后还有一个更哲学的问题,那就是这是否重要。换句话说,这些事情可能在生物化学上发生,但进化,或者说我们的身体实际上并不关心。
这场辩论自 2003 年以来一直在进行。然后我们自己以及联盟外部的工作都使得监管元件的进化规则与蛋白质编码元件的进化规则不同这一点变得更加清晰。基本上,监管元件的更替速度更快。因此,如果在人类中发现特定的蛋白质编码基因,那么大多数时候你会在小鼠中找到几乎相同的基因,而这个规则对于监管元件来说就行不通了。
换句话说,人类基因的调控更复杂,这些调控元件的进化也更快?
完全正确。
这是一种相当不同的基因和进化思考方式。
我强烈地感觉到,以前我对自己的无知一无所知,而现在我理解了自己的无知。当你意识到自己有多么无知时,这有点令人沮丧。但这就是进步。理解这些事情的第一步是列出一个必须理解的事物清单,而这就是我们在这里得到的。
早期的研究表明,只有大约 3% 到 15% 的基因组具有功能意义——也就是说,实际上做了一些事情,无论是编码蛋白质、调节基因的工作方式还是做其他事情。我是否正确地理解了 ENCODE 数据意味着,相反,高达 80% 的基因组可能具有功能?
人们可以使用 ENCODE 数据,得出一个介于 9% 到 80% 之间的数字,这显然是一个非常大的范围。那里发生了什么?退一步说,我们细胞内的 DNA 被包裹在各种蛋白质周围,其中大多数是组蛋白,它们通常起作用以保持一切安全和快乐。但是还有其他类型的蛋白质称为转录因子,它们与 DNA 具有特定的相互作用。转录因子只会结合在 1,000 个位置,或者最大的结合可能发生在基因组中 50,000 个特定位置。因此,当我们谈论这 9% 时,我们实际上是在谈论这些非常具体的转录因子与 DNA 的接触。
另一方面,DNA 复制成 RNA 似乎一直都在发生——大约 80% 的基因组实际上被转录。关于这种大量的转录是否是一个不太重要的背景过程,或者正在产生的 RNA 实际上是否在做我们尚不知道的事情,仍然存在激烈的争论。
就我个人而言,我认为所有被转录的东西都值得进一步探索,而这将是我们未来必须解决的任务之一。
人们普遍认为,通过所谓的全基因组关联研究或 GWAS 来识别与人类疾病相关的常见遗传变异的尝试并没有揭示太多。事实上,ENCODE 的结果现在表明,GWAS 先前与疾病相关的 DNA 区域中约有 75% 位于蛋白质编码基因附近。就疾病而言,我们专注于蛋白质编码 DNA 中的突变是否错了?
全基因组关联研究非常有趣,但它们不是医学的灵丹妙药。GWAS 的情况让每个人都有些摸不着头脑。但是,当我们把这些遗传关联与 ENCODE 数据放在一起时,我们看到,尽管这些位点不靠近蛋白质编码基因,但它们确实靠近我们正在发现的这些新元件之一。这是一件很美好的事情。事实上,当我第一次看到它时,那是一个有点好得难以置信的时刻。我们花了很多时间仔细检查一切。
这一发现如何帮助我们理解疾病?
这就像打开了一扇门。想想你可以研究特定疾病(如克罗恩病)的所有不同方法:我们应该研究肠道中的免疫系统细胞吗?还是应该研究向肠道发射信号的神经元?还是应该研究胃以及它是如何做其他事情的?
所有这些都是选择。现在突然 ENCODE 让您可以检查这些选择并说,“嗯,我真的认为您应该首先从研究免疫系统的这一部分——辅助性 T 细胞——开始。”我们可以为非常非常多的疾病做到这一点。这真的很令人兴奋。
既然我们正在摒弃“垃圾 DNA”这个说法,那么是否有另一个更好的隐喻可以解释正在出现的遗传景观的观点?
感觉真的像一个丛林——一个完全茂密的丛林,你必须在其中努力前进。你正试图开辟一条道路到达某个位置。而且你真的不确定自己在哪里,你知道吗?很容易在那里迷路。
在过去的 20 年里,公众多次被告知,这些大型基因组项目——从人类基因组计划开始,一直到其他各种项目——将解释我们需要了解的关于“生命之书”的一切。ENCODE 仅仅是这一序列中的最新项目吗?
我认为每次我们都说,“这些是基础。你在它们之上构建。”没有人说过,“看,人类基因组碱基,就是这样。一切都完成了——我们只需要做一点代码破解。”每个人都说,“我们将研究这个 50 年、100 年。但这是我们开始的基础。”我确实感觉 ENCODE 项目是基础资源的下一层,供其他人站在上面并进一步观察。这里最大的变化是我们已知未知事物的清单。我认为人们应该理解,尽管发现自己有多少不知道的事情可能会让人感到倒退和沮丧,但找出差距真的很好。
十年前,我们不知道我们不知道什么。毫无疑问,ENCODE 提出的问题远远多于它直接回答的问题。与此同时,对于克罗恩病来说,以及许多其他疾病,至少对于研究人员来说,有一些有效的快速胜利和唾手可得的成果——你可以开始对人们说,“哦,我的天哪,你有没有看过那里?”
这只是又一步。这是一个重要的步骤,但远未结束,恐怕。
您有时称自己为 ENCODE 的“首席牧猫人”。有多少人参与了该联盟,协调如此大规模的努力感觉如何?
这是一种非常不同的科学研究方式。我只是 400 名研究人员之一,我是负责确保分析交付并且一切顺利的人。但我不得不借助许多许多人的才能。
所以我更像是牧猫人、指挥家,而不是一个大脑可以吸收所有这些东西的人。这又回到了丛林的感觉。
嗯,您值得称赞。这不仅仅是猫。它们是很有主见的猫。
是的,它们是。科学家不是狗。狗自然成群结队地奔跑。猫?不是。我认为这概括了正常的科学表型。因此,有时你必须哄骗这些人朝着同一个方向前进。
您是否看到所有这些复杂的信息将最终简化为关于人类遗传和人类疾病的更简单信息的时刻?或者我们是否必须接受复杂性正如其分,存在于我们的 DNA 中这一事实?
我们是复杂的生物。我们应该预料到那里很复杂。但我认为我们应该对此感到高兴,甚至为此感到自豪。