人类基因组从未被完全测序

2003年完成的工作使用了当时最好的技术，但现在科学家们可以做得更多

作者：莎伦·贝格利和 STAT

这一壮举成为世界各地的新闻头条：“科学家称人类基因组已完成”，《纽约时报》在 2003 年宣布。《科学》和《自然》杂志在揭示这一历史性成就的封面文章中使用了相同的欢呼语：“人类基因组”。

但有一个小问题。

“就广告的真实性而言，‘完成的’序列并未完成，”埃里克·兰德说，他在怀特黑德研究所领导的实验室为政府资助的人类基因组计划破译了比任何其他实验室都多的基因组。“我总是说‘完成’是一种修辞手法。”

支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您正在帮助确保有关当今世界正在形成的发现和想法的具有影响力的故事的未来。

“可以非常公平地说，人类基因组从未被完全测序，”另一位基因组学领袖克雷格·文特尔告诉 STAT。

“据我所知，人类基因组以及其他任何哺乳动物基因组都没有被完全测序，”哈佛医学院生物工程师乔治·丘奇说，他在测序技术方面取得了关键的早期进展。

阅读更多：遗传学家克雷格·文特尔帮助测序了人类基因组。现在他想要你的基因组

然而，内部人士所知的事情并没有被我们其他人很好地理解，我们理所当然地认为构成 23 对人类染色体 DNA 的每一个 A、T、C 和 G 都已被完全解析。当科学家们在 2001 年完成人类基因组的第一个草案时，以及在 2003 年他们有了最终版本时，没有人真正撒谎。美国国立卫生研究院的常见问题解答提到了序列的“基本完成”，并且对于“人类基因组是否完全测序？”的问题，他们回答“是”，但补充说，鉴于现有技术，它是“尽可能完整的”。

也许没有人太在意，因为缺失的序列似乎无关紧要。但是现在看来，它们可能在癌症和自闭症等疾病中发挥作用。

加州大学圣克鲁兹分校的分子生物学家凯伦·米加说：“在 20 世纪 80 年代和 90 年代（当人类基因组计划开始时），很多人认为这些区域是非功能的。但现在情况并非如此。”她说，其中一些被称为卫星区域的区域在某些形式的癌症中会发生不良行为，“因此这些区域中正在发生一些重要的事情。”

米加将它们视为探险家利文斯顿眼中的非洲——一块未知之地，它的难以接近似乎是对个人的冒犯。她说，对未测序的区域进行测序是“人类遗传学和基因组学的最后边界”。

丘奇也一直在强调这一点，他在 5 月的基因组合成会议以及上周末的国际干细胞研究学会会议上都提到了这一点。他说，大多数未测序的区域“与衰老和非整倍体有关”（染色体数量异常，例如唐氏综合征中发生的染色体数量异常）。丘奇估计人类基因组中有 4% 到 9% 没有被测序。米加认为有 8%。

这些差距的原因在于，DNA 测序机器不像人类阅读书籍那样，从第一个词到最后一个词来读取基因组。相反，它们首先随机切碎 23 对染色体的副本，总共有约 30 亿个“字母”，这样机器就不会不堪重负。由此产生的片段包含从 1000 个字母（在人类基因组计划期间）到几百个字母（在当今更先进的测序机器中）。这些片段重叠。计算机将重叠部分匹配起来，将片段组装成正确的序列。

如果这些片段包含大量重复片段（例如 TTAATATTAATATTAATA，或 TTAATA 三次），则很难或不可能完成此操作。兰德说：“问题在于，当你拥有完全相同的词时，很难进行组装”，就像拼图游戏中的拼图块显示完全相同的蓝色天空一样。

2004 年，基因组计划报告说，序列中有 341 个缺口。大部分缺口（250 个）位于每条染色体的主要部分，基因在那里制造生命运行所需的蛋白质。这些缺口很小。只有少数缺口（最近统计为 33 个）位于每条染色体的着丝粒（染色体的两个部分连接的地方）和端粒（染色体末端的帽子）处或附近，但这 33 个缺口的总长度是 250 个缺口的 10 倍。

这使得着丝粒尤其像是基因组中未知的赞比西河。华盛顿大学的埃文·艾希勒说，每条染色体都有这种挑战序列的重复元素（把它们想象成 DNA 口吃），其中一个臭名昭著的重复元素有 171 个字母长，首尾相连重复数千个字母。

兰德说，在人类基因组计划开始时（他现在是麻省理工学院和哈佛大学博德研究所的主任），“很明显，这些高度重复的序列将无法使用现有技术进行处理。当时这并没有引起太多的痛苦”，因为他和项目负责人预计下一代科学家会找到解决方案。

这种情况并没有真正发生，部分原因是绘制这些区域的地图没有太大的动力。兰德说：“我持不可知论态度，并且有点怀疑这些片段是否对疾病很重要，但也许我说这话是因为我们无法读取它们。”

然而，随着新的测序技术开始允许科学家窥探未测序的区域，他们发现“这些难以测序的区域通常具有重要的基因”，DNA 测序仪制造商太平洋生物科学公司董事长兼首席执行官迈克尔·亨卡皮勒说。（1998 年，亨卡皮勒招募文特尔加入他的新公司 Celera Genomics，与政府支持的基因组计划竞争。）

亨卡皮勒说，PacBio 的“存在理由”是增加可以读取的 DNA 片段的长度并组装它们。更长的读取效果类似于放大拼图块；即使这些拼图块仍然包含大量重复的蓝色天空，更大的尺寸也更有可能使它们也包含足够新颖的东西，从而使组装更容易。亨卡皮勒说，PacBio 的最大 DNA 读取长度现在约为 60,000 个字母，平均为 15,000 个字母。

兰德说，有了如此长的读取长度，“你可以通过许多这些令人讨厌的[未测序]区域。”

阅读更多：“基因编写者”在纽约聚集，推销炸弹嗅探植物等等。资金在哪里？

这看起来越来越像一项值得进行的尝试，而且不仅仅是因为未测序的区域可能包含实际的蛋白质制造基因。有证据表明，非基因部分（尤其是 DNA 口吃）“显然对疾病有影响”，亨卡皮勒说。“一个人与另一个人之间四分之三的[基因组]差异在于[这种]变异”，而不是 A、T、C 和 G 中单个字母的拼写差异，而这些差异受到了所有关注。在 2007 年的论文中，文特尔和他的团队表明，像这样的称为结构变异的人与人之间的差异比单个字母的变化更多。

然而，在基因组项目或后来称为1000 基因组项目的工作中，大约 90% 的结构变异（其中绝大多数没有被测序）“被遗漏了”，艾希勒和他的同事在去年报告中指出。

口吃之所以具有异常的影响力，其中一个原因是这种重复的 DNA 可以四处移动、复制自身、翻转方向，并进行其他杂技表演，这些表演“可能具有非常显着的功能影响”，亨卡皮勒说。首先，着丝粒周围的重复元素（称为卫星）可能会导致细胞分裂成为癌细胞，米加说，因为它们会使整个基因组不稳定。

亨卡皮勒说，当斯坦福大学的研究人员试图找出一位年轻男子神秘疾病的遗传原因时，这种疾病导致他的全身长出非癌性肿瘤，他们使用标准的整个基因组测序方法一无所获。但是，PacBio 机器实现的“长读取”技术“寻找到了结构变异，并立即发现了问题”，他说。

口吃甚至可能使我们成为人类。其中一些复杂的重复“似乎对更高神经适应功能的进化很重要”——也就是大脑发育，艾希勒说。一个名为 ARHGAP11B 的基因由这种重复产生，它导致大脑皮层发育出支持复杂思维的无数褶皱；SRGAP2C 也是一种重复，它会触发大脑发育。

“这些是在过去几百万年中专门在我们血统中进化出来的新基因，”艾希勒说。同样的重复也可能产生与神经发育障碍（如自闭症和智力障碍）相关的 DNA 重排。

“完成测序！”还没有成为一个战斗口号，但也许应该成为一个战斗口号，文特尔说：“我会是最后一个引用说我们不需要担心这些[未测序]区域的人。”

经 STAT 许可转载。本文最初发表于 2017 年 6 月 20 日