关于支持科学新闻
如果您喜欢这篇文章,请考虑订阅我们的获奖新闻,以支持我们的工作 订阅。通过购买订阅,您将有助于确保关于当今世界塑造的发现和想法的有影响力的故事的未来。
如果你问美国国家人类基因组研究所(NHGRI)的科学家,人类基因组计划何时结束,他们会告诉你是在2003年完成的。然而,一项新的研究表明,由多人基因代码片段拼凑而成的综合参考基因组绝对是一项正在进行中的工作。
完成的基因组本应作为典型人类的遗传构成模型,研究人员可以将其作为参考,来检测患有某些疾病的人的遗传缺陷。但是,上周发表在《自然》杂志上的新研究表明,当前的模型可能存在缺陷,并且可能实际上存在尚未发现的基因缺失。
对八个人的基因变异研究发现,整个基因组中有250多个区域,研究人员认为这些区域可能包含数百个新基因。该研究的合著者、西雅图华盛顿大学基因组科学副教授埃文·E·艾希勒说,研究还确定,参考基因组可能完全错误,或者包含罕见的等位基因(基因的版本)。
未参与这项研究的耶鲁大学生物学家迈克尔·斯奈德说,“参考基因组具有罕见的等位基因意味着它没有准确地呈现大多数人,而大多数人是这样认为参考基因组的。”
艾希勒认为,从这八个基因组以及他计划分析的其他17个基因组中收集到的发现,可以帮助填补参考基因组中的空白,这将使该序列在研究心脏病、糖尿病和精神分裂症等复杂遗传疾病时更有帮助。艾希勒说:“俗话说,‘关键在于序列,笨蛋。’一旦你获得高质量的序列,你就可以进行关联研究和疾病研究。”
艾希勒和他的团队着手通过比较几个人的代码来确定基因组中发生结构变化的区域。这些变异会影响遗传密码中的数千到数百万个字母或核苷酸(DNA分子)。人类基因组包含30亿个字母。这些改变可以采取所谓的拷贝数变异(其中几个基因被删除或复制,导致一个人携带的基因拷贝数发生变化,而不是来自每个父母的一个拷贝的正常情况)或倒位,其中代码的片段被反转。这些突变可能是由于在制造儿童的基因组(通过将父母的代码剪切和粘贴在一起)时或修复DNA损伤时出错引起的,DNA损伤通常是由紫外线和吸入烟雾等环境因素引起的。
研究人员从八个人的血液中提取了DNA样本:四名非洲人、两名亚洲人和两名欧洲人。他们随机地将每个人的代码分解成一百万个片段,然后尝试将片段的末端与参考基因组上的区域进行匹配。如果他们找不到匹配项,则团队将不匹配的片段指定为结构变化的位点。
研究人员总共识别出1,695个结构变异实例,其中800个是先前未报告的。受这些突变影响的区域中有50%出现在一个以上的研究人员身上。在参考基因组中发现缺失的525个区域中,有40%是由于拷贝数变异造成的,这意味着可能有一批尚未发现的基因隐藏在其中。
纽约长岛冷泉港实验室的遗传学家乔纳森·塞巴特说:“我几乎可以肯定他发现了新的基因。我们从未见过参考序列中基因的拷贝数为零的[位置]。”
艾希勒说,他的团队目前正在对志愿者基因组中包含缺失信息的片段进行测序。他说:“很明显,那里有一些看起来可能是基因的东西。”
他指出,我们基因组中的许多结构变异发生在代码的400个不稳定区域中。他说:“这些变异中的许多都偏向于特定的区域,这些区域包括对适应至关重要的基因。这些基因在人类内部已经发生了非常根本的变化,或者是人类之外找不到的[相对]新基因。”他称这些区域为“进化熔炉”,其中新的核苷酸组合被尝试过,但大多数被丢弃,只有在“极少数”情况下,它们创造了有利的特征,并且“创造了一个新的基因”。
一旦这些结构变异被描述为缺失、重复或倒位,它们就可以添加到其他工作中,如国际单体型图计划,这是一项旨在对不同种族的人之间基因内仅涉及单个核苷酸的突变进行编目的尝试。今年早些时候,包括NHGRI在内的一个国际联盟宣布了一项计划,对1,000个基因组进行测序,这将有助于完善参考基因组中的数据。
艾希勒说,如果可以修改参考基因组以表示最常见的基因集(并且可以对大小变异进行编目),科学家们将能够快速查明患有特定疾病(如糖尿病)的人的等位基因,并将其与参考基因组进行比较,以确定它是“正常”还是有缺陷的。他说:“通过正确地描述正常基因组,我们将能够非常容易地识别出导致疾病的变异。”