在浩瀚的人类基因组中,遗传学家最感兴趣的是其中极小的一部分——约 1.5%——这部分包含构建蛋白质的指令。蛋白质构建是 DNA 的主要功能,这些复杂的分子对于整个身体的发育、生长和繁殖至关重要。
但我们不清楚这些蛋白质编码基因中的大多数实际上是做什么的。只有大约 20% 的人类编码基因得到了充分研究,其余 80%(约 16,000 个基因,以及它们产生的蛋白质)的功能在很大程度上仍然是个谜。这是因为遗传学研究中长期存在的偏见:科学家们更常研究已知具有重要功能的基因和蛋白质。牛津大学细胞生物学家 Matthew Freeman 说,这些备受瞩目的项目,例如研究已知与癌症有关的基因,在资助者看来似乎更“性感”。
Freeman 和他的同事们将这片尚未开发的基因潜力领域称为“未知基因组”,他们已经工作了 10 年,旨在创建一个数据库,用于汇编和编目这些研究不足的基因。该数据库按“已知性”对基因进行排名,并追踪哪些基因出现在其他不同物种的 DNA 中。他们的研究工具和发表在PLOS Biology上的配套论文最近已在网上发布。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您将有助于确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
纽约市西奈山伊坎医学院的生物信息学家 Avi Ma'ayan 表示,能够筛选在不同物种中发现的基因,使该项目与其他具有类似目标的项目区分开来,但他并未参与这项新工作。“未知基因组的概念并不新鲜,”Ma'ayan 说,但由于有太多未被发现的东西,研究人员可能不知道应该优先研究哪些基因。这就是为什么物种间比较会如此有帮助的原因。Ma'ayan 说,当基因在许多物种中都得到保守时,这是一个很好的暗示,表明它们在生物体中发挥着“至关重要的作用”。未知基因组数据库允许科学家搜索,例如,仅存在于无脊椎动物中的、在所有活细胞中都发现的或预计仅在细胞膜中发现的研究不足的基因。正如 Freeman 所说,“它非常可调。”
为了测试未知基因组数据库的实用性,Freeman 和他的团队分离出了 260 个未知的果蝇基因,这些基因也存在于人类中。敲除果蝇中的许多这些基因要么使昆虫无法存活,要么使它们出现各种缺陷。巴塞罗那超级计算中心的计算生物学家 Eduard Porta Pardo 说,结果表明,“在这些‘未知’基因和蛋白质中,有一些对我们的发育至关重要,并且可能具有重要的临床意义,”他没有参与这项工作。研究人员希望,借助这些资源和技术进步,未知基因组将成为一个只会随着时间推移而缩小的知识库。*
*编者注(2023 年 10 月 17 日):本段在发布后经过编辑,加入了 Eduard Porta Pardo 的评论。