是什么让我们成为人类?

人类和黑猩猩基因组的比较揭示了那些罕见的、我们独有的 DNA 片段

六年前,我抓住机会加入了国际团队,该团队正在识别普通黑猩猩(Pan troglodytes)基因组中 DNA 碱基或“字母”的序列。作为一名长期对人类起源感兴趣的生物统计学家,我渴望将人类 DNA 序列与我们现存最近的亲属的 DNA 序列排列在一起并进行评估。一个令人谦卑的事实浮出水面:我们的 DNA 蓝图与他们的几乎 99% 相同。也就是说,在构成人类基因组的 30 亿个字母中,只有 1500 万个字母(不到 1%)在人类和黑猩猩谱系分化以来的大约 600 万年中发生了变化。

进化论认为,这些变化中的绝大多数对我们的生物学影响甚微或没有影响。但在大约 1500 万个碱基中的某个地方,存在着使我们成为人类的差异。我决心找到它们。从那时起,我和其他人已经在识别一些将我们与黑猩猩区分开来的 DNA 序列方面取得了诱人的进展。

早期的惊喜 尽管仅占人类基因组的一小部分,但数百万个碱基仍然是一个广阔的搜索领域。为了方便搜索,我编写了一个计算机程序,该程序可以扫描人类基因组,寻找自人类和黑猩猩从共同祖先分离以来变化最大的 DNA 片段。由于大多数随机基因突变既不会使生物体受益也不会损害生物体,因此它们以稳定的速率积累,该速率反映了自两个生物物种拥有共同祖先以来经过的时间量(这种变化率通常被称为“分子钟的滴答”)。相比之下,基因组某些部分的变化率加速是正向选择的标志,在这种选择中,有助于生物体生存和繁殖的突变更有可能传递给后代。换句话说,自黑猩猩-人类分裂以来经历最多修改的代码部分是最有可能塑造人类的序列。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。


2004 年 11 月,经过数月的调试和优化我的程序以使其在加州大学圣克鲁兹分校的大型计算机集群上运行后,我最终得到一个文件,其中包含这些快速进化序列的排名列表。在我的导师大卫·豪斯勒俯身在我肩膀上时,我查看了排名最高的命中结果,这是一段 118 个碱基的延伸,它们共同被称为人类加速区域 1 (HAR1)。我使用加州大学圣克鲁兹分校基因组浏览器(一种使用公共数据库中的信息注释人类基因组的可视化工具)放大了 HAR1。浏览器显示了人类、黑猩猩、小鼠、大鼠和鸡的 HAR1 序列——当时所有已解码基因组的脊椎动物物种。它还显示,之前的大规模筛选实验已在人类脑细胞的两个样本中检测到 HAR1 活动,尽管没有科学家命名或研究过该序列。当我们看到 HAR1 可能是科学界新发现的、在大脑中活跃的基因的一部分时,我们齐声喊道:“太棒了!”

我们中了大奖。众所周知,人类大脑在大小、组织和复杂性等方面与黑猩猩大脑有很大不同。然而,人类大脑与众不同的特征背后的发育和进化机制却知之甚少。HAR1 有潜力阐明人类生物学中最神秘的方面。

在接下来的一年里,我们通过比较包括当时测序的另外 12 种脊椎动物在内的各种物种的基因组的这个区域,尽可能多地了解了 HAR1 的进化历史。事实证明,在人类出现之前,HAR1 的进化速度非常缓慢。在鸡和黑猩猩(它们的谱系在大约 3 亿年前就已分化)中,118 个碱基中只有两个不同,而人类和黑猩猩之间有 18 个不同,它们的谱系分化时间要晚得多。HAR1 在数亿年中基本上处于冻结状态这一事实表明它在做一些非常重要的事情;然后在人类中经历了突然的修订,这表明该功能在我们的谱系中得到了显着修改。

2005 年,在我的合作者布鲁塞尔自由大学的皮埃尔·范德海根访问圣克鲁兹期间,从我们的实验室获得了一小瓶 HAR1 副本后,HAR1 在大脑中的功能的关键线索出现了。他使用这些 DNA 序列设计了一种荧光分子标签,当 HAR1 在活细胞中被激活时(即从 DNA 复制到 RNA)会发光。当典型的基因在细胞中开启时,细胞首先制造一个可移动的信使 RNA 副本,然后使用 RNA 作为合成某些所需蛋白质的模板。标记显示,HAR1 在一种神经元中活跃,这种神经元在发育中的大脑皮层(皱褶状的最外层大脑层)的模式和布局中起着关键作用。当这些神经元出现问题时,结果可能是一种严重的、通常是致命的先天性疾病,称为无脑回畸形(“光滑大脑”),其中皮层缺乏其特征性褶皱,并且表面积显着减少。这些相同神经元的功能障碍也与成人精神分裂症的发生有关。

因此,HAR1 在正确的时间和地点活跃,有助于健康皮层的形成。(其他证据表明,它可能还在精子产生中发挥作用。)但是,这段遗传密码究竟如何影响皮层发育仍然是一个谜,我的同事和我仍在努力解决。我们渴望这样做:HAR1 最近的突变爆发可能已经显着改变了我们的大脑。

除了拥有非凡的进化历史外,HAR1 的特殊之处还在于它不编码蛋白质。几十年来,分子生物学研究几乎完全集中在指定蛋白质(细胞的基本组成部分)的基因上。但由于人类基因组计划对我们自身的基因组进行了测序,科学家现在知道蛋白质编码基因仅占我们 DNA 的 1.5%。其余 98.5%(有时被称为垃圾 DNA)包含调节序列,这些序列告诉其他基因何时开启和关闭,以及编码不翻译成蛋白质的 RNA 的基因,以及许多科学家才刚刚开始理解用途的 DNA。

基于 HAR1 序列中的模式,我们预测 HAR1 编码 RNA——加州大学圣克鲁兹分校的索菲·萨拉马、哈勒·伊格尔和曼努埃尔·艾尔斯随后在 2006 年通过实验室实验证实了这一猜想。事实上,事实证明人类 HAR1 存在于两个重叠的基因中。共享的 HAR1 序列产生了一种全新的 RNA 结构,添加到已知的六类 RNA 基因中。这六个主要群体包含 1000 多个不同的 RNA 基因家族,每个家族都通过细胞中编码 RNA 的结构和功能来区分。HAR1 也是第一个被记录在案的似乎经历了正向选择的 RNA 编码序列的例子。

似乎令人惊讶的是,之前没有人注意到人类基因组中这令人惊叹的 118 个碱基。但在没有 readily 比较整个基因组的技术的情况下,研究人员无法知道 HAR1 不仅仅是另一段垃圾 DNA。

语言线索 其他物种的整个基因组比较也为人类和黑猩猩的基因组如此相似却又如此不同提供了另一个关键见解。近年来,数千种物种(主要是微生物)的基因组已被测序。事实证明,DNA 替换发生在基因组中的位置(而不是总体上发生多少变化)可能非常重要。换句话说,您不需要改变基因组的很多就能创造一个新物种。从黑猩猩-人类祖先进化出人类的方法不是加速整个分子钟的滴答声。相反,秘诀是在那些变化对生物体功能产生重要影响的位点发生快速变化。

HAR1 当然就是这样一个地方。FOXP2 基因也是如此,它包含我识别出的另一个快速变化的序列,并且已知与语言有关。英国牛津大学的研究人员发现了它在语言中的作用,他们在 2001 年报告称,基因突变的人无法做出正常人类语言所需的某些微妙的、高速的面部动作,即使他们拥有处理语言的认知能力。典型的人类序列与黑猩猩的序列显示出几个差异:两个碱基替换改变了其蛋白质产物,以及许多其他可能导致影响蛋白质在人体中使用方式、时间和地点的转变的替换。

最近的一项发现揭示了启用语言版本的 FOXP2 何时出现在人科动物中:2007 年,德国莱比锡马克斯·普朗克进化人类学研究所的科学家对从尼安德特人化石中提取的 FOXP2 进行了测序,发现这些已灭绝的人类拥有现代人类版本的基因,或许使他们能够像我们一样发音。目前对尼安德特人和现代人类谱系分裂时间的估计表明,新形式的 FOXP2 必须在至少 50 万年前就已出现。然而,人类语言与其他物种的声带交流的区别主要不是来自物理手段,而是来自认知能力,认知能力通常与大脑大小相关。灵长类动物的大脑通常比根据它们的体型预期的要大。但自黑猩猩-人类祖先以来,人类的大脑容量增加了两倍多——遗传学研究人员才刚刚开始解开这种增长的秘密。

与人类和其他动物大脑大小相关的研究最充分的基因之一是 ASPM。对患有小头畸形(大脑缩小高达 70%)的人进行的基因研究揭示了 ASPM 和其他三个基因(MCPH1、CDK5RAP2 和 CENPJ)在控制大脑大小中的作用。最近,芝加哥大学和密歇根大学安阿堡分校的研究人员表明,ASPM 在灵长类动物进化过程中经历了多次变化爆发,这种模式表明了正向选择。至少其中一次爆发发生在人类谱系中,自从它与黑猩猩谱系分化以来,因此可能对我们的大脑进化起到了推动作用。

基因组的其他部分可能对人类大脑的变态产生了不太直接的影响。识别 HAR1 的计算机扫描还发现了 201 个其他人类加速区域,其中大多数区域不编码蛋白质甚至 RNA。(英国剑桥韦尔科姆信托基金会桑格研究所进行的一项相关研究检测到许多相同的 HAR。)相反,它们似乎是调节序列,告诉附近的基因何时开启和关闭。令人惊讶的是,超过一半的 HAR 附近基因都参与大脑发育和功能。而且,正如 FOXP2 的情况一样,许多这些基因的产物会继续调节其他基因。因此,即使 HAR 仅占基因组的极小部分,这些区域的变化也可能通过影响整个基因网络的活动而深刻地改变人类大脑。

超越大脑 尽管许多基因研究都集中在阐明我们复杂大脑的进化上,但研究人员也在逐渐了解人类身体的其他独特方面是如何形成的。HAR2 基因调控区域是我列表上加速程度排名第二的位点,就是一个典型的例子。2008 年,劳伦斯伯克利国家实验室的研究人员表明,相对于非人类灵长类动物的版本,人类版本 HAR2(也称为 HACNS1)中的特定碱基差异允许该 DNA 序列在胎儿发育期间驱动手腕和拇指中的基因活动,而非其他灵长类动物的祖先版本则不能。这一发现尤其具有启发性,因为它可能支持人类手部形态的变化,这种变化使人类具备了制造和使用复杂工具所需的灵活性。

除了形态发生变化外,我们的祖先还经历了行为和生理上的转变,这帮助他们适应了变化的环境并迁移到新的环境中。例如,一百多万年前对火的征服和大约 10,000 年前的农业革命使富含淀粉的食物更容易获得。但仅靠文化转变不足以利用这些富含卡路里的食物。我们的前辈必须在基因上适应它们。

AMY1 基因(编码唾液淀粉酶,一种参与消化淀粉的酶)的变化构成了这种适应的一个众所周知的例子。哺乳动物基因组包含该基因的多个副本,副本数量在物种之间甚至在不同人之间都不同。但总的来说,与其他灵长类动物相比,人类拥有特别多的 AMY1 副本。2007 年,亚利桑那州立大学的遗传学家表明,携带更多 AMY1 副本的个体唾液中的淀粉酶更多,从而使他们能够消化更多淀粉。因此,AMY1 的进化似乎既涉及基因副本的数量,也涉及其 DNA 序列的具体变化。

另一个关于饮食适应的著名例子涉及乳糖酶 (LCT) 基因,乳糖酶是一种允许哺乳动物消化碳水化合物乳糖(也称为乳糖)的酶。在大多数物种中,只有哺乳期的婴儿才能处理乳糖。但在大约 9000 年前(从进化角度来看,时间非常近),人类基因组的变化产生了 LCT 的变体,使成年人也能消化乳糖。改良的 LCT 在欧洲和非洲人群中独立进化,使携带者能够消化家养动物的牛奶。今天,这些古代牧民的成年后代比来自世界其他地区(包括亚洲和拉丁美洲)的成年人更可能耐受饮食中的乳糖,后者中的许多人由于拥有该基因的祖先灵长类动物版本而患有乳糖不耐症。

LCT 并不是唯一已知目前在人类中进化的基因。黑猩猩基因组计划在从一种在我们的猿类祖先中完全正常且在其他哺乳动物中也能正常工作的版本转变的过程中,识别出另外 15 个基因,但在旧形式中,这些基因与现代人类的阿尔茨海默病和癌症等疾病有关。其中几种疾病仅影响人类,或在人类中的发生率高于其他灵长类动物。科学家目前正在研究所涉及基因的功能,并试图确定为什么这些基因的祖先版本在我们身上变得不适应。这些研究可以帮助医生识别那些患上这些危及生命的疾病的几率更高的患者,希望能帮助他们预防疾病。这些研究也可能帮助研究人员识别和开发新的治疗方法。

好事与坏事并存 为了将我们的基因传递给后代而与疾病作斗争一直是人类进化以及所有物种进化的永恒主题。在免疫系统中,这种斗争最为明显。当研究人员检查人类基因组中正向选择的证据时,最有可能的候选者通常与免疫有关。进化如此频繁地修改这些基因并不奇怪:在没有抗生素和疫苗的情况下,个体传递其基因的最可能障碍可能是危及生命的感染,这种感染发生在育龄结束之前。进一步加速免疫系统进化的是病原体不断适应我们的防御,从而导致微生物和宿主之间的进化军备竞赛。

这些斗争的记录遗留在我们的 DNA 中。对于逆转录病毒(如 HIV)来说尤其如此,这些病毒通过将其遗传物质插入我们的基因组中来生存和繁殖。人类 DNA 中散落着这些短逆转录病毒基因组的副本,其中许多来自数百万年前引起疾病的病毒,这些病毒可能不再循环。随着时间的推移,逆转录病毒序列像任何其他序列一样积累随机突变,因此不同的副本相似但不完全相同。通过检查这些副本之间的分歧程度,研究人员可以使用分子钟技术来确定原始逆转录病毒感染的日期。这些古老感染的疤痕在宿主免疫系统基因中也很明显,这些基因不断适应以对抗不断进化的逆转录病毒。

PtERV1 就是这样一种遗迹病毒。在现代人类中,一种名为 TRIM5α 的蛋白质可以阻止 PtERV1 和相关逆转录病毒的复制。遗传证据表明,大约在 400 万年前,PtERV1 流行病困扰着生活在非洲的古代黑猩猩、大猩猩和人类。为了弄清楚不同的灵长类动物如何应对 PtERV1,2007 年,西雅图弗雷德·哈钦森癌症研究中心的研究人员使用黑猩猩基因组中许多随机突变的 PtERV1 副本重建了原始 PtERV1 序列,并重新创建了这种古老的逆转录病毒。然后,他们进行了实验,以观察人类和类人猿版本的 TRIM5α 基因在多大程度上可以限制复活的 PtERV1 病毒的活性。他们的结果表明,人类 TRIM5α 中的一个单一变化最有可能使我们的祖先比我们的灵长类动物表亲更有效地对抗 PtERV1 感染。(人类 TRIM5α 的其他变化可能是在响应相关逆转录病毒而进化的。)其他灵长类动物在 TRIM5α 中有自己的一组变化,可能反映了它们的祖先赢得的逆转录病毒战斗。

然而,战胜一种类型的逆转录病毒并不一定能保证继续成功对抗其他病毒。尽管人类 TRIM5α 的变化可能帮助我们幸存下来 PtERV1,但这些相同的转变使我们更难对抗 HIV。这一发现正在帮助研究人员了解为什么 HIV 感染会导致人类患上艾滋病,而不是非人类灵长类动物。显然,进化可能会进一步退两步。有时科学研究也会有同样的感觉。我们已经确定了许多令人兴奋的候选者,可以解释独特人类特征的遗传基础。但在大多数情况下,我们只了解这些基因组序列功能的基础知识。对于 HAR1 和 HAR2 等不编码蛋白质的区域,我们知识的空白尤其大。

这些快速进化、独特的人类序列确实指明了一条前进的道路。是什么让我们成为人类的故事可能不会关注我们蛋白质构建块的变化,而是关注进化如何通过改变体内不同基因的开启和关闭时间和地点,以新的方式组装这些构建块。目前在世界各地数千个实验室中进行的实验和计算研究有望阐明我们基因组中不编码蛋白质的 98.5% 发生了什么。它看起来越来越不像垃圾了。

© . All rights reserved.