解读生命之书

我们的基因数量仅为蠕虫或果蝇的两倍左右,远少于任何人的猜测。那么现在怎么办?

图片来源:美国能源部人类基因组计划
基因由DNA中的四个碱基(遗传字母表的字母 A、G、T、C)编码,并且很难识别。染色体位于细胞核内,包含DNA。

去年夏天,当来自人类基因组计划(一个由学术研究中心组成的国际联盟)和塞莱拉基因组公司(一家美国私营公司)的科学家们都宣布他们已经完成了人类基因组的工作草图时,全世界为之欢呼。这是朝着破译整个基因组迈出的重要第一步,也是有史以来最伟大的科学事业之一。但这些草图仅仅揭示了故事的开端,即包含生命指令的卷轴。现在,两个团队都已开始解读卷轴中的实际经文,逐个基因地进行阅读。今天,他们将宣布分析结果,这些结果将分别发表在本周的《自然》和《科学》杂志上。

除其他令人惊讶之处外,两篇论文都认为人类仅有 26,000 至 40,000 个基因,这远少于许多人的预测。作为参考,简单的线虫秀丽隐杆线虫有 18,000 个基因;果蝇黑腹果蝇有 13,000 个。截至去年夏天,一些人估计人类基因组可能包含多达 140,000 个基因。科学家们还需要几年时间才能就绝对总数达成一致,但大多数人确信最终数字不会超出今天报告的范围。“如果最终结果是 29,000 或 36,000,我不会感到震惊,”美国国立卫生研究院国家人类基因组研究所所长弗朗西斯·柯林斯说。“但如果最终结果是 50,000 或 20,000,我会感到震惊。”


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保未来继续推出关于塑造我们当今世界的发现和思想的具有影响力的报道。


经过多年的工作,约 10,000 个基因的误差幅度可能看起来并不令人印象深刻,但基因(DNA 中编码 RNA 和蛋白质的实际单元)非常难以计数。原因之一是它们像谚语中的大海捞针一样散布在整个基因组中:它们的编码部分仅占人类基因组中约 30 亿个碱基对的 1% 到 1.5%。基因的编码区被分割成称为外显子的小片段,这些片段由称为内含子的长段非编码 DNA 连接。只有在转录过程中生成信使 RNA 时,外显子才会被拼接在一起。

图片来源:美国能源部人类基因组计划
比较的线索。 小鼠基因组可以帮助科学家识别人类基因,因为大多数小鼠和人类基因非常相似;它们的序列在两个基因组中都是保守的。

柯林斯解释说,为了识别功能基因,科学家们不得不“依赖于各种线索”。一些线索来自与互补 DNA (cDNA) 数据库的比较,cDNA 是信使 RNA 的精确副本。同样,与小鼠基因组的比较也有帮助,因为大多数小鼠和人类基因非常相似;它们的序列在两个基因组中都是保守的,而许多周围的 DNA 则不然。当没有此类线索时,科学家们完全依赖于基因预测计算机算法。

因为这些算法并非完全可靠,有时它们会在没有基因的地方看到基因,或者完全遗漏基因,所以一些科学家对新的人类基因计数表示怀疑。例如,人类基因组科学公司(一家专门仅根据 cDNA 寻找蛋白质编码基因的公司)的 William Haseltine 认为,“已使用的方法非常粗糙且不精确。”他认为,基因数量是这两个研究小组迄今为止报告的两倍以上。

但许多其他人确实接受目前的估计,并正在询问人类应该拥有如此少的基因意味着什么。塞莱拉基因组公司总裁克雷格·文特尔认为,“基因数量少意味着并非每个人类特征都有一个基因,这些特征出现在蛋白质水平和复杂的细胞水平。”事实证明,至少每三个基因中就有一个通过其前信使 RNA 的“选择性剪接”产生几种不同的蛋白质。而且,人类蛋白质的结构比蠕虫和果蝇的蛋白质结构更复杂,这增加了另一个复杂性层次。与更简单的生物体相比,人类拥有额外的蛋白质,这些蛋白质在免疫系统和神经系统以及血液凝固、细胞信号传导和发育等方面发挥作用。

科学家们也在对一项发现的意义感到困惑,即显然有 200 多个来自细菌的基因在数百万年前侵入了人类基因组,成为永久性的补充。今天,新的研究表明,其中一些细菌基因已经接管了重要的人类功能,例如调节对压力的反应。“这有点令人震惊,无疑会激发进一步的研究,”柯林斯说。事实上,科学家们以前认为这种水平基因转移在脊椎动物中是不可能的。

人类基因组的另一个奇特特征是其整体景观,其中基因密集区和基因贫乏区交替出现。“有些区域看起来像城市地区,基因序列的摩天大楼彼此堆叠在一起,”柯林斯解释说,“然后还有一些巨大的沙漠,在数百万个碱基对中似乎没有任何活动。”此外,这种差异不仅在染色体内部而且在染色体之间也很明显。例如,19 号染色体的基因含量大约是 Y 染色体的四倍。

那么基因沙漠中发生了什么?人类基因组的一半以上由重复序列组成,也称为“垃圾 DNA”,因为它们没有已知的功能。脊椎动物没有它们也能很好地生存:例如,河豚的基因组几乎没有这些重复序列。在人类中,它们中的大多数来源于转座因子,即寄生性 DNA 片段,它们会复制自身并在另一个位点插入副本。但现在几乎所有不同类型的转座因子似乎都已停止在基因组中游荡,只剩下它们的“化石”。尽管如此,仍有近 50 个基因似乎起源于转座因子,这表明它们在基因组的进化过程中发挥了一些有用的作用。

图片来源:美国能源部人类基因组计划
尚未完成。 公共数据库中只有 10 亿个碱基对(上图中的黄色、橙色和蓝色部分),即总量的三分之一,是“已完成”的形式。

一种类型的转座因子,即所谓的 Alu 元件,在富含 G 和 C 碱基的区域中尤其常见。这些区域也包含许多基因,因此 Alu 元件可能在它们周围以某种方式有益。华盛顿大学基因组测序中心主任、公共联盟成员罗伯特·沃特斯顿说,总的来说,人类基因组曾经看起来像“一个复杂的生态系统,所有这些不同的元素都试图增殖”。今天,它们积累的突变为人类进化史提供了极好的分子化石记录。

除了由转座因子引起的重复序列外,基因组的大片段似乎随着时间的推移而复制,无论是在染色体内部还是染色体之间。研究人员说,这种复制使得进化能够在不破坏其原始功能的情况下处理不同的基因,并可能导致人类许多基因家族的扩张。

除了基因组序列外,人类基因组计划和塞莱拉公司都已在 DNA 中识别出许多在个体之间存在差异的碱基位置,这些位置被称为单核苷酸多态性,或 SNP(发音为“snips”)。公共联盟发现了 140 万个 SNP,塞莱拉公司宣布已发现 210 万个。科学家们希望从中了解基因如何使人与人不同,特别是为什么有些人比其他人更容易患某些疾病。“如果它们都有意义,那么弄清楚它们的所有含义肯定需要很长时间,但我认为这个过程已经开始,”沃特斯顿指出。

可以肯定的是,还有许多工作要做。公共数据库中只有 10 亿个碱基对(总量的三分之一)是“已完成”的形式,这意味着它们非常准确且没有缺口。目前,塞莱拉公司和公共数据都包含大量缺口。此外,异染色质(DNA 中基因贫乏、重复序列丰富的部分,约占基因组的 10%)的大部分尚未克隆和测序。到 2003 年春季,公共项目有望完成这项任务,但使用当前方法无法获得的序列除外。

下一个重大挑战将是找出基因如何在细胞中相互作用。柯林斯说,研究人员将“开始以全基因组的方式看待生物学”,例如,研究细胞中所有基因在给定时间的表达。柯林斯在谈到一个快速发展的研究领域蛋白质组学时说,蛋白质(基因的产物)也将被研究,“不是一次研究一个,而是一次研究数万个”。然而,最终,基因可能只能提供这么多答案。文特尔总结道:“基本信息是人类不是预先设定好的。那些一直在为生活中一切寻找确定性解释的人会非常失望,而那些希望基因组能够免除他们个人责任的人会更加失望。”

© . All rights reserved.