是什么让我们与众不同?

人类和黑猩猩基因组的比较揭示了那些罕见的、仅属于我们人类的DNA片段

九年前,我抓住机会加入了一个国际团队,该团队正在识别普通黑猩猩(Pan troglodytes)基因组中DNA碱基或“字母”的序列。作为一名长期对人类起源感兴趣的生物统计学家,我渴望将人类DNA序列与我们现存最近亲的DNA序列排列在一起并进行评估。一个令人谦卑的事实浮出水面:我们的DNA蓝图与他们的DNA蓝图几乎有99%是相同的。也就是说,在构成人类基因组的30亿个字母中,只有1500万个字母——不到1%——在人类和黑猩猩谱系分化以来的大约600万年间发生了变化。

进化论认为,这些变化中的绝大多数对我们的生物学影响甚微或根本没有影响。但是,在大约1500万个碱基中的某个地方,隐藏着使我们成为人类的差异。我决心找到它们。从那时起,我和其他人已经在识别一些将我们与黑猩猩区分开来的DNA序列方面取得了诱人的进展。

[中断] 早期的惊喜


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于塑造我们当今世界的发现和想法的有影响力的故事。


尽管只占人类基因组的一小部分,但数百万个碱基仍然是一个广阔的搜索领域。为了方便搜索,我编写了一个计算机程序,可以扫描人类基因组中自人类和黑猩猩从共同祖先分裂以来变化最大的DNA片段。由于大多数随机基因突变既不会对生物体有利也不会有害,因此它们以稳定的速率积累,该速率反映了自两个生物物种拥有共同祖先以来经过的时间(这种变化率通常被称为“分子钟的滴答”)。相比之下,基因组某些部分的变化率加速是正向选择的标志,在正向选择中,有助于生物体生存和繁殖的突变更有可能传递给后代。换句话说,自黑猩猩-人类分裂以来,代码中修改最多的部分是最有可能塑造人类的序列。

2004年11月,经过几个月调试和优化我的程序,使其能够在加州大学圣克鲁兹分校的大型计算机集群上运行后,我最终得到了一个文件,其中包含这些快速进化序列的排名列表。在我的导师大卫·豪斯勒俯身在我肩膀上时,我查看了排名最高的命中结果,这是一段118个碱基的片段,它们共同被称为人类加速区域1(HAR1)。我使用加州大学圣克鲁兹分校的基因组浏览器(一种使用公共数据库中的信息注释人类基因组的可视化工具)放大了HAR1。浏览器显示了人类、黑猩猩、小鼠、大鼠和鸡的HAR1序列——当时所有已解码基因组的脊椎动物物种。它还显示,之前的​​大规模筛选实验检测到人类脑细胞的两个样本中存在HAR1活性,尽管没有科学家命名或研究过该序列。当我们看到HAR1可能是科学界新发现的、在大脑中活跃的基因的一部分时,我们齐声喊道:“太棒了!”

我们中了大奖。众所周知,人类大脑在大小、组织和复杂性等方面与黑猩猩大脑有很大不同。然而,人类大脑独特特征背后的发育和进化机制却知之甚少。HAR1有可能阐明人类生物学中最神秘的方面。

在接下来的一年中,我们通过比较包括在此期间测序的另外12种脊椎动物在内的各种物种的基因组中的该区域,尽可能多地了解HAR1的进化历史。事实证明,在人类出现之前,HAR1的进化速度极其缓慢。在鸡和黑猩猩(它们的谱系在大约3亿年前分化)中,118个碱基中只有两个不同,而人类和黑猩猩之间有18个差异,它们的谱系分化时间要近得多。HAR1在数亿年中基本上处于冻结状态这一事实表明它在做一些非常重要的事情;然后在人类中经历突然的修订表明,该功能在我们的谱系中得到了显着修改。

2005年,在我的合作者布鲁塞尔自由大学的皮埃尔·范德海根访问圣克鲁兹期间,从我们的实验室获得了一小瓶HAR1副本后,HAR1在大脑中的功能的一个关键线索出现了。他使用这些DNA序列设计了一种荧光分子标签,当HAR1在活细胞中被激活时(即从DNA复制到RNA)会发光。当典型的基因在细胞中被开启时,细胞首先制造一个移动的信使RNA副本,然后使用RNA作为模板来合成一些需要的蛋白质。标记显示,HAR1在一种神经元中活跃,这种神经元在发育中的大脑皮层(皱褶最外层的大脑层)的模式和布局中起着关键作用。当这些神经元出现问题时,结果可能是严重的、通常是致命的先天性疾病,称为无脑回畸形(“光滑大脑”),其中大脑皮层缺乏其特征性的褶皱并表现出显着减少的表面积。这些相同神经元的功能障碍也与成年期精神分裂症的发病有关。

因此,HAR1在正确的时间和地点活跃,有助于健康皮层的形成。(其他证据表明,它可能还在精子产生中发挥作用。)但是,这段遗传密码究竟如何影响皮层发育仍然是一个谜,我的同事和我仍在努力解决。我们渴望这样做:HAR1最近的突变爆发可能已经显着改变了我们的大脑。

除了拥有非凡的进化历史外,HAR1的特殊之处还在于它不编码蛋白质。几十年来,分子生物学研究几乎完全集中在指定蛋白质(细胞的基本组成部分)的基因上。但是,由于人类基因组计划对我们自身的基因组进行了测序,科学家现在知道蛋白质编码基因仅占我们DNA的1.5%。其余98.5%(有时被称为垃圾DNA)包含调节序列(告诉其他基因何时开启和关闭)和编码不翻译成蛋白质的RNA的基因,以及许多用途科学家才刚刚开始了解的DNA。

根据HAR1序列的模式,我们预测HAR1编码RNA——加州大学圣克鲁兹分校的索菲·萨拉玛、哈勒·伊格尔和曼努埃尔·艾尔斯随后在2006年通过实验室实验证实了这一推测。事实上,事实证明人类HAR1存在于两个重叠的基因中。共享的HAR1序列产生了一种全新的RNA结构,添加到六个已知的RNA基因类别中。这六个主要组包含1000多个不同的RNA基因家族,每个家族都以细胞中编码RNA的结构和功能为特征。HAR1也是RNA编码序列的第一个有记录的例子,该序列似乎经历了正向选择。

似乎令人惊讶的是,之前没有人注意到人类基因组中这些惊人的118个碱基。但是在缺乏 readily 比较整个基因组的技术的情况下,研究人员无法知道HAR1不仅仅是另一段垃圾DNA。

[中断] 语言线索

其他物种的全基因组比较也为人类和黑猩猩的基因组非常相似,但差异却如此之大的原因提供了另一个关键见解。在过去的十年中,数千个物种(主要是微生物)的基因组已被测序。事实证明,DNA替换发生在基因组的哪个位置——而不是总体上发生多少变化——可能非常重要。换句话说,你不需要改变基因组的太多就可以创造出一个新物种。从黑猩猩-人类祖先进化成人类的方法不是加快整个分子钟的滴答速度。相反,秘诀是在那些变化对生物体的功能产生重要影响的位点发生快速变化。

HAR1当然是这样一个地方。FOXP2基因也是如此,它包含我确定的另一个快速变化的序列,并且已知与言语有关。牛津大学的研究人员发现了它在言语中的作用,他们在2001年报告说,基因突变的人无法做出正常人类言语所需的某些微妙的、高速的面部动作,即使他们具有处理语言的认知能力。典型的人类序列与黑猩猩的序列显示出几个差异:两个碱基替换改变了其蛋白质产物,以及许多其他可能导致影响蛋白质在人体中被使用的方式、时间和地点的转变的替换。

一项发现为了解FOXP2的言语使能版本何时出现在人科动物中提供了一些线索:2007年,莱比锡马克斯·普朗克进化人类学研究所的科学家对从尼安德特人化石中提取的FOXP2进行了测序,发现这些已灭绝的人类拥有现代人类版本的基因,这或许使他们能够像我们一样发音。目前对尼安德特人和现代人类谱系分裂时间的估计表明,新形式的FOXP2一定至少在50万年前出现。然而,人类语言与其他物种的语音交流的区别主要不是来自身体手段,而是来自认知能力,认知能力通常与大脑大小相关。灵长类动物的大脑通常比根据其体型预期的要大。但是,自黑猩猩-人类祖先以来,人类的大脑容量增加了两倍多——遗传学研究人员才刚刚开始解开这一增长之谜。

与人类和其他动物的大脑大小相关的最受研究的基因示例之一是ASPM。对患有小头畸形(大脑缩小高达70%)的人的遗传研究揭示了ASPM和另一个基因CDK5RAP2在控制大脑大小中的作用。最近,芝加哥大学、密歇根大学和剑桥大学的研究人员表明,ASPM在灵长类动物进化过程中经历了多次变化爆发,这种模式表明正向选择。至少其中一次爆发发生在人类谱系中,自从它与黑猩猩的谱系分化以来,因此可能对我们大脑的进化起到了作用。

基因组的其他部分可能对人类大脑的变态产生了较小的直接影响。识别HAR1的计算机扫描还发现了201个其他人类加速区域,其中大多数区域不编码蛋白质甚至RNA。(在英国剑桥的维康信托桑格研究所进行的一项相关研究检测到许多相同的HAR。)相反,它们似乎是调节序列,告诉附近的基因何时开启和关闭。令人惊讶的是,超过一半的位于HAR附近的基因都参与大脑的发育和功能。而且,正如FOXP2的情况一样,许多这些基因的产物继续调节其他基因。因此,即使HAR仅占基因组的极小部分,这些区域的变化也可能通过影响整个基因网络的活动而深刻地改变人类大脑。

[中断] 超越大脑

尽管许多遗传学研究都集中在阐明我们复杂大脑的进化上,但研究人员也在拼凑人类身体的其他独特方面是如何形成的。HAR2,一个基因调控区域,也是我列表上第二个最加速的位点,就是一个很好的例子。2008年,劳伦斯·伯克利国家实验室的研究人员表明,相对于非人类灵长类动物的版本,人类版本的HAR2(也称为HACNS1)中的特定碱基差异允许该DNA序列在胎儿发育期间驱动腕部和拇指中的基因活动,而其他灵长类动物的祖先版本则不能。这一发现尤其具有启发性,因为它可能支撑了人类手部的形态变化,这种变化使人类具备了制造和使用复杂工具所需的灵巧性。

除了形态上的变化外,我们的祖先还经历了行为和生理上的转变,这有助于他们适应变化的环境并迁移到新的环境中。例如,一百多万年前对火的征服和大约一万年前的农业革命使富含淀粉的食物更容易获得。但是,仅靠文化转变不足以开发这些富含卡路里的食物。我们的祖先必须在基因上适应它们。

AMY1基因(编码唾液淀粉酶,一种参与消化淀粉的酶)的变化构成了这种适应的一个众所周知的例子。哺乳动物基因组包含该基因的多个拷贝,拷贝数量在物种之间甚至在个体人类之间都不同。但总的来说,与其他灵长类动物相比,人类拥有特别多的AMY1拷贝。2007年,亚利桑那州立大学的遗传学家表明,携带更多AMY1拷贝的个体唾液中的淀粉酶更多,从而使他们能够消化更多的淀粉。因此,AMY1的进化似乎既涉及基因拷贝的数量,也涉及其DNA序列中的特定变化。

另一个著名的饮食适应例子涉及乳糖酶(LCT)基因,这是一种使哺乳动物能够消化碳水化合物乳糖(也称为乳糖)的酶。在大多数物种中,只有哺乳期的婴儿才能处理乳糖。但是,在大约9000年前——在进化意义上来说是非常近的——人类基因组的变化产生了LCT的版本,使成年人能够消化乳糖。改良的LCT在欧洲和非洲人群中独立进化,使携带者能够消化家养动物的牛奶。今天,这些古代牧民的成年后代比来自世界其他地区(包括亚洲和拉丁美洲)的成年人更可能耐受饮食中的乳糖,后者中的许多人由于拥有祖先灵长类动物版本的基因而患有乳糖不耐症。

LCT不是唯一已知在人类中不断进化的基因。黑猩猩基因组项目在从我们猿类祖先中完全正常且在其他哺乳动物中运作良好,但在旧形式中与现代人类的阿尔茨海默病和癌症等疾病相关的版本转变的过程中,识别出了另外15个基因。其中几种疾病仅影响人类或在人类中的发病率高于其他灵长类动物。科学家们正在研究所涉及基因的功能,试图确定为什么这些基因的祖先版本在我们身上变得不适应。这些研究可能有助于医生识别那些患上这些危及生命的疾病的风险更高的患者,希望帮助他们预防疾病。这些研究也可能帮助研究人员开发新的治疗方法。

[中断] 好事与坏事并存

当研究人员检查人类基因组中正向选择的证据时,最有可能的候选者通常与免疫有关。进化如此频繁地修改这些基因并不奇怪:在没有抗生素和疫苗的情况下,个体将基因传递下去的最可能障碍可能是危及生命的感染,这种感染在他们生育年龄结束之前就会发生。进一步加速免疫系统进化的是病原体对我们防御系统的不断适应,从而导致微生物和宿主之间的进化军备竞赛。

这些斗争的记录留在了我们的DNA中。对于逆转录病毒(如HIV)来说尤其如此,它们通过将其遗传物质插入我们的基因组中来生存和繁殖。人类DNA中散落着这些短逆转录病毒基因组的副本,其中许多来自数百万年前引起疾病且可能不再传播的病毒。随着时间的推移,逆转录病毒序列像任何其他序列一样积累随机突变,因此不同的副本相似但不相同。通过检查这些副本之间的差异程度,研究人员可以使用分子钟技术来确定原始逆转录病毒感染的日期。这些古代感染的伤疤也可见于宿主免疫系统基因中,这些基因不断适应以对抗不断进化的逆转录病毒。

PtERV1就是这样一种遗迹病毒。在现代人类中,一种名为TRIM5α的蛋白质可以阻止PtERV1和相关逆转录病毒的复制。遗传证据表明,大约四百万年前,PtERV1流行病困扰着生活在非洲的古代黑猩猩、大猩猩和人类。为了研究不同的灵长类动物如何响应PtERV1,2007年,西雅图弗雷德·哈钦森癌症研究中心的研究人员使用了黑猩猩基因组中许多随机突变的PtERV1副本,重建了原始的PtERV1序列并重新创建了这种古代逆转录病毒。然后,他们进行了实验,以了解人类和大型猿类版本的TRIM5α基因在多大程度上可以限制复活的PtERV1病毒的活性。他们的结果表明,最有可能的是人类TRIM5α中的一个变化使我们的祖先能够比我们的灵长类动物表亲更有效地对抗PtERV1感染。

然而,战胜一种类型的逆转录病毒并不能保证继续成功对抗其他病毒。即使人类TRIM5α的变化可能帮助我们幸存下来PtERV1,但这些相同的转变使我们更难对抗HIV。这一发现正在帮助研究人员了解为什么HIV感染会导致人类患上艾滋病,但在非人类灵长类动物中却不那么频繁。显然,进化可能会前进​​一步,后退两步。有时科学研究也感觉如此。我们已经确定了许多令人兴奋的候选者,可以解释独特人类特征的遗传基础。但在大多数情况下,我们只了解这些基因组序列功能的基本知识。对于诸如HAR1和HAR2等不编码蛋白质的区域,我们知识的空白尤其大。

这些快速进化的序列确实指明了一条前进的方向。是什么让我们成为人类的故事可能不会关注我们蛋白质构建块的变化,而是关注进化如何通过改变体内不同基因开启和关闭的时间和地点,以新的方式组装这些构建块。目前全球数千个实验室正在进行的实验和计算研究有望阐明我们基因组中不编码蛋白质的98.5%的部分正在发生什么。它看起来越来越不像垃圾了。

更多探索

绘制人类历史:通过我们的基因发现过去。 史蒂夫·奥尔森。霍顿·米夫林,2002年。

祖先的故事:进化黎明之旅。 理查德·道金斯。霍顿·米夫林,2004年。

黑猩猩基因组的初始序列及其与人类基因组的比较。 《自然》杂志黑猩猩测序和分析联盟,第437卷,第69-87页;2005年9月1日。

加州大学圣克鲁兹分校,基因组生物信息学网站:http://genome.ucsc.edu

SA Special Editions Vol 22 Issue 1s本文最初以“是什么让我们与众不同?”为标题发表于SA Special Editions 第22卷第1s期 (), p. 30
doi:10.1038/scientificamericanhuman1112-30
© . All rights reserved.