新人类基因数量引燃辩论

关于人类基因组中包含多少基因的争议仍在继续酝酿 

在人类基因组计划完成十多年后,识别基因仍然是一项挑战。

最早尝试估计人类基因组中基因数量的方法之一,涉及到醉醺醺的遗传学家、纽约州冷泉港的一家酒吧和纯粹的猜测。

那是在2000年,当时人类基因组序列草图仍在制定中;遗传学家们正在进行一场关于人类拥有多少基因的彩票,赌注从数万到数十万不等。将近二十年后,武装了真实数据的科学家们仍然无法就这个数字达成一致——他们说,这种知识上的差距阻碍了发现与疾病相关的突变的努力。

最新的尝试填补这一空白的方法使用了来自数百个人体组织样本的数据,并于5月29日发布在BioRxiv预印本服务器上。它包括了近5,000个以前未被发现的基因——其中近1,200个携带着制造蛋白质的指令。而超过21,000个蛋白质编码基因的总数,比之前的估计有了大幅跃升,之前的估计数字约为20,000个。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


但是,许多遗传学家仍然不相信所有新提出的基因都能经得起仔细审查。他们的批评突显了识别新基因,甚至定义基因是多么困难。

“人们在这方面已经努力工作了20年,但我们仍然没有答案,”马里兰州巴尔的摩市约翰斯·霍普金斯大学的计算生物学家史蒂文·萨尔茨堡说,他的团队得出了最新的计数结果。

难以确定

2000年,随着基因组学界对将发现多少人类基因的问题议论纷纷,伊万·伯尼发起了基因扫雷竞赛。伯尼,现在是英国欣克斯顿欧洲生物信息学研究所 (EBI) 的联合主任,在一次年度遗传学会议期间,在一家酒吧接受了第一批赌注,该竞赛最终吸引了1000多名参与者和一个3000美元的头奖。 关于基因数量的赌注 从超过312,000个到略低于26,000个不等,平均约为40,000个。如今,估计范围已经缩小——现在大多数在19,000到22,000之间——但仍然存在分歧(参见“基因数量”)。

基因计数可能会因分析的数据、使用的工具以及筛选掉假阳性的标准而异。最新的计数使用了比之前的工作更大的数据集和不同的计算方法,以及更广泛的基因定义标准。

萨尔茨堡的团队使用了来自基因型-组织表达 (GTEx) 项目的数据,该项目对来自30多种不同组织的RNA进行了测序 从数百具尸体中提取。RNA是DNA和蛋白质之间的中间体。研究人员希望识别编码蛋白质的基因和不编码蛋白质但在细胞中仍然发挥重要作用的基因。因此,他们组装了GTEx的9000亿个微小的RNA片段,并将它们与人类基因组对齐。

仅仅因为一段DNA被表达为RNA,并不一定意味着它是一个基因。因此,该团队试图使用各种标准来过滤掉噪音。例如,他们将结果与其他物种的基因组进行比较,理由是远亲生物共享的序列很可能因进化而被保留下来,因为它们具有有用的目的,因此很可能是基因。

该团队最终获得了21,306个蛋白质编码基因和21,856个非编码基因——远远多于两个最广泛使用的人类基因数据库中包含的基因。由EBI维护的GENCODE基因集包括19,901个蛋白质编码基因和15,779个非编码基因。RefSeq是美国国家生物技术信息中心 (NCBI) 运行的数据库,列出了20,203个蛋白质编码基因和17,871个非编码基因。

位于马里兰州贝塞斯达的NCBI基因组研究员、前RefSeq负责人金·普鲁伊特说,差异很可能部分是由于萨尔茨堡团队分析的数据量。还有另一个主要区别。GENCODE和RefSeq都依赖于手动策展——由人工审查每个基因的证据并做出最终决定。萨尔茨堡的团队仅依靠计算机程序来筛选数据。

“如果人们喜欢我们的基因列表,那么也许几年后我们就会成为人类基因的仲裁者,”萨尔茨堡说。

棘手的计数

但是许多科学家表示,他们需要更多证据才能确信该列表是准确的。亚当·弗兰基什是EBI的计算生物学家,负责协调GENCODE的手动注释,他说他和他的小组已经扫描了萨尔茨堡团队识别出的大约100个蛋白质编码基因。根据他们的评估,其中只有一个似乎是真正的蛋白质编码基因。

普鲁伊特的团队查看了萨尔茨堡小组新发现的大约十几个蛋白质编码基因,但没有发现任何一个符合RefSeq的标准。其中一些与基因组区域重叠,这些区域似乎属于入侵我们祖先基因组的逆转录病毒;另一些则属于其他重复序列,这些序列很少被翻译成蛋白质。

但萨尔茨堡表示,一些重复序列可以被认为是基因。一个例子是 ERV3-1,它出现在RefSeq中,并编码一种在结直肠癌中过度表达的蛋白质。萨尔茨堡还承认,他的团队列表中的新基因需要他的团队和其他人进行验证。

进一步混淆计数工作的是基因的不精确和不断变化的定义。生物学家过去认为基因是编码蛋白质的序列,但后来人们清楚地认识到,一些非编码RNA分子在细胞中也具有重要作用。判断哪些是重要的——并且应该被视为基因——是有争议的,并且可以解释萨尔茨堡的计数与其他计数之间的一些差异。

尽管如此,瑞士日内瓦大学的遗传学家埃曼努伊尔·德米特扎基斯说,至少萨尔茨堡小组鉴定出的一些基因很可能会被证明是有效的,他也是GTEx项目的联合主席。考虑到GTEx数据集的庞大性,蛋白质编码基因的团队计数比之前的计数增加了5%,他并不感到惊讶。

拥有所有人类基因的准确计数对于揭示基因与疾病之间联系的努力非常重要。萨尔茨堡说,未计数的基因常常被忽略,即使它们包含致病突变。但是,弗兰基什说,仓促地将基因添加到主列表中也可能带来风险。事实证明不正确的基因可能会转移遗传学家对真正问题的注意力。

尽管如此,普鲁伊特说,数据库之间基因数量的不一致对于研究人员来说仍然存在问题。“人们想要一个答案,”她补充说,“但生物学是复杂的。”

本文经许可转载,并于 首次发表 于2018年6月19日。

© . All rights reserved.