强调积极的一面:研究人员更接近于确定人类基因组中有益的进化突变

通过结合统计测试,研究人员可以锁定在人类进化过程中被选择的狭窄区域——以及在某些情况下的基因


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


在人类进化过程中,增强疾病抵抗力或提高特定气候适应性的基因突变被正向选择。但是,目前用于寻找这些有益突变或变异的统计方法只能锁定跨越多个基因的区域,这些区域也可能涵盖各种其他功能。

在人类基因组的这些广阔区域内,还有许多未被选择或中性的变异,它们也因与被选择的变异在同一条染色体上而被优先遗传。“基本上,当选择发生时,会牵连出一大堆[突变],然后你试图找到哪个是驱动因素——也就是那根针,”哈佛大学有机体和进化生物学系的进化遗传学家Pardis Sabeti说。

为了缩小正向选择的罪魁祸首,Sabeti和她的研究团队开发了一种方法,将不同选择变异特异性的统计方法组合成一个强大的工具。使用该复合工具,该小组分析了来自不同染色体的数百千碱基(或数十万个核苷酸)区域的突变。这些突变发生在基因内部或基因组中不编码基因的部分。尽管该团队针对过去3万年中发生的选择优化了他们的方法,但Sabeti表示,经过一些调整,该方法可以追溯到人类种群开始迁出非洲并在5万至7万年前彼此分化的时间点。该团队首次使用复合方法的研究于1月7日发表在《科学》杂志上。

使用这项技术,科学家可以预测基因组中的一个区域,该区域窄至单个基因,而不是多个基因,这很可能已被正向选择。例如,他们发现了一个与眼睛颜色或皮肤色素沉着有关的单个基因,该基因很可能从包含五个基因的区域中被选择出来。

“这种方法可以让你更精确地说出哪些类型的基因被选中了,我认为这非常强大,”西雅图华盛顿大学的进化生物学家Joshua Akey说,他没有参与Sabeti小组的研究。

在创建复合方法之前,不同的进化遗传学家小组一直在使用可以检测由正向选择产生的3种不同遗传模式之一的方法。尽管该领域已经有关于结合不同方法以尝试提高信噪比(或针与草堆)的传言,但Sabeti表示,实际上没有人测试过这种可能性。据Akey称,“他们所做的聪明之处在于,‘我们可以使用这些不同测试捕获的略有不同的信息’。”



Sabeti自己开发的第一项测试擅长寻找已经经历过正向选择的基因组大区域。由于姐妹染色体在基因组区域中彼此交换遗传信息的速率是规则的,因此可以估计该区域与其祖先序列相比的年龄。

但是,当一个区域获得被选择的变异时,该变异通常会迅速在整个人群中传播,并带动染色体上相邻的中性变异一起传播。这种快速传播的原因是,与没有被选择的变异的人相比,具有被选择的变异的人更有可能繁殖并将有益的突变传递给下一代。当研究人员发现人群中共享的变异岛时,这表明其中一个或多个变异赋予了优势。

由于这种方法使科学家们获得的区域可能包含多达一百万个核苷酸和数十个基因,因此Sabeti的小组纳入了其他方法,这些方法可以定位更精细的正向选择特征。研究人员优化了一种方法,该方法检查这些岛屿内的单个突变,试图确定高流行率的变异。与扫描岛屿相比,此过程的优势在于它能够对每个变异进行评分,以确定其被选择而不是中性的可能性。

科学家们纳入其复合方法的第三种策略考虑了正在分析的基因组的人口背景。由于生活在不同环境中的人群面临着不同的选择压力,因此,当比较不同人群时,负责赋予选择优势的变异可能会显现出来。

为了测试复合方法的能力,Sabeti的团队对178个基因组区域进行了新方法测试。该序列来自HapMap 2项目,这是一个国际项目,旨在对欧洲、东亚和西非后裔的个体基因组区域进行测序,重点关注这些群体之间差异的核苷酸。到目前为止,该项目已对270人的300万个核苷酸进行了测序。

复合方法的分辨率比它使用的任何测试高100倍。换句话说,单个测试可能会预测在1000个变异的总区域内某处存在被选择的变异,而组合策略将可能性缩小到10个变异的区域。

与Sabeti和其他研究人员一起进行这项研究的Sharon Grossman说,她对该方法比单项测试强大得多感到惊讶。“很多人都认为它行不通,因为他们认为如果你通过一项[测试]获得高分,那么你就会通过所有测试获得高分,”她补充说。尽管不同的测试都可以给被选择的变异打高分,但它们在给中性变异打低分的能力上有所不同。因此,Grossman说,新方法的假阳性率很低。



除了确定显示出正向选择迹象的色素沉着基因外,研究人员还发现,他们研究的东亚后裔中与听力和视觉感知相关的基因更为频繁。

但是,Sabeti最兴奋的基因被称为large,它与非洲的一个亚种群对拉沙热病毒的抵抗力有关。科学家们发现,某些版本的所谓的大基因可以保护拥有它的尼日利亚人免受感染,否则这种感染将像埃博拉病毒一样致命。借助她使用的新方法来缩小基因内的变异范围,Sabeti渴望尝试找出大型基因的哪些突变可以预防拉沙热。

通过复合方法揭示的另一个发现是,大约一半的预测选择变异不在编码蛋白质的基因区域。“最近,在全基因组关联研究中,出现了一次彻底的改革,其中许多最重要的功能变化是调节性的,或者是在基因的非蛋白质编码区域中,”Sabeti说。

随着遗传学家从更多个体收集序列信息,识别所选变异以及它们编码的性状或它们调节的基因的潜力可能很快就会爆发。尽管Sabeti的研究仅分析了来自270个个体的300万个核苷酸,但通过千人基因组计划正在进行工作,以对1000人的整个基因组进行测序。

北卡罗来纳大学教堂山分校的遗传学家James Evans没有参与当前的研究,他说,随着下一代测序技术的出现,获得数据不再是障碍。“我们很快就会获得来自全球各地人类的大量序列数据,而分析已成为瓶颈。这就是为什么这种研究如此重要和及时,”他说。

© . All rights reserved.