革命性基因研究表明 RNA 可能主宰我们的基因组

科学家最近发现了数千种活跃的 RNA 分子,它们可以控制人体

Illustration of active RNA molecules behind machines

杨杰姆斯

T托马斯·金格拉斯 (Thomas Gingeras) 并非有意颠覆关于人体如何运作的基本理念。2012 年,这位当时在纽约州冷泉港实验室工作的遗传学家,只是数百位同事中的一员,他们只是试图汇编人类 DNA 功能的概要。他们的项目被称为 ENCODE,即 DNA 元素百科全书的首字母缩写。大约十年前,构成人类基因组的 30 亿个 DNA 构件几乎全部被鉴定出来。金格拉斯和其他 ENCODE 科学家试图弄清楚所有这些 DNA 的作用。

当时大多数生物学家的假设是,其中大部分 DNA 并没有太多作用。早期的基因组绘图者估计,我们 DNA 中可能只有 1% 到 2% 是经典定义的基因:基因组中编码蛋白质的片段,蛋白质是人体的主力,负责将氧气输送到不同的器官,构建心肌和脑细胞,并完成人们维持生命所需的一切其他事情。制造蛋白质被认为是基因组的主要工作。基因通过将制造指令放入称为 mRNA 的信使分子中来完成这项工作,mRNA 进而传递到细胞的蛋白质制造机制。至于基因组 DNA 的其余部分?金格拉斯说,“蛋白质编码区域”据推测“被生物学上无功能的序列海洋包围”。换句话说,它基本上是垃圾 DNA。

因此,当他和 ENCODE 团队的其他成员在 2012 年的几篇自然杂志论文中报告说,至少 75% 的基因组在某个时候会被转录成 RNA 时,这确实令人震惊。ENCODE 的工作始于 2003 年,使用了可以绘制基因组区段 RNA 活动的技术,并在 2007 年得出了初步结果。但直到五年后,所有这些转录的程度才变得清晰起来。如果只有 1% 到 2% 的 RNA 编码蛋白质,那么其余的 RNA 是做什么用的呢?科学家们知道,其中一些 RNA 执行着关键任务,例如开启或关闭基因;许多其他功能尚待确定。尽管如此,没有人想到我们 DNA 的四分之三会变成 RNA,更不用说其中如此之多可以做任何有用的事情了。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们今天世界的发现和想法的具有影响力的故事。


一些生物学家对这一声明表示怀疑,甚至近乎愤怒。ENCODE 团队被指责夸大其研究结果;一些批评者认为,大部分 RNA 是意外产生的,因为沿着基因组移动的 RNA 制造酶对其读取的 DNA 片段相当不加区分。

现在看来,ENCODE 基本上是正确的。其他数十个研究小组在人类基因组上进行活性探测,也发现我们的大部分 DNA 都在大量产生“非编码”RNA。它不像 mRNA 那样编码蛋白质,而是与其他分子结合来执行某些生化任务。到 2020 年,ENCODE 项目表示,它已鉴定出约 37,600 个非编码基因——即带有不编码蛋白质的 RNA 分子指令的 DNA 片段。这几乎是蛋白质编码基因数量的两倍。其他统计数据差异很大,从大约 18,000 个到接近 96,000 个不等。仍然存在怀疑者,但也存在热情的生物学家,例如马萨诸塞大学陈医学院的珍妮·劳伦斯和丽莎·霍尔。在 2024 年为科学杂志撰写的一篇评论中,两人将这些发现描述为“RNA 革命”的一部分。

这些发现具有革命性的原因在于所有这些非编码 RNA(缩写为 ncRNA)的作用。其中大部分似乎确实参与基因调控:不仅是简单地开启或关闭基因,还包括微调其活性。因此,尽管某些基因掌握着蛋白质的蓝图,但 ncRNA 可以控制这些基因的活性,从而最终决定是否制造蛋白质。这与 DNA 双螺旋结构发现大约 70 年以来一直占据主导地位的生物学基本叙事大相径庭,后者完全是关于 DNA 导致蛋白质的。“看来我们可能从根本上误解了遗传编程的本质,”昆士兰科技大学的分子生物学家凯文·莫里斯和澳大利亚新南威尔士大学的约翰·马蒂克在 2014 年的一篇文章中写道。

另一个重要的发现是,一些 ncRNA 似乎在疾病中发挥作用,例如,通过调节与某些形式的癌症相关的细胞过程。因此,研究人员正在研究是否有可能开发出靶向此类 ncRNA 的药物,或者反过来,是否可以使用 ncRNA 本身作为药物。例如,如果某个基因编码一种帮助癌细胞生长的蛋白质,那么关闭该基因的 ncRNA 可能有助于治疗癌症。

几十年来,人们已经知道一些非编码 RNA,但这些 RNA 似乎在蛋白质制造中发挥着一定的作用。例如,在弗朗西斯·克里克、詹姆斯·沃森和他们的几位同事推断出 DNA 结构后仅几年,研究人员发现一些称为转移 RNA 的 RNA 会抓住氨基酸,这些氨基酸最终会串联成蛋白质。

然而,在 20 世纪 90 年代,科学家们意识到 ncRNA 可以做与蛋白质构建完全无关的事情。这些新作用来自于理解 X 染色体失活过程的努力,其中女性携带的两条 X 染色体中的一条被沉默,其所有约 1000 个基因(在人类中)都被关闭。这个过程似乎由一个名为 XIST 的基因控制。但是,寻找相应的 XIST 蛋白质的尝试始终失败。

事实证明,原因是该基因不是通过蛋白质起作用,而是通过产生长链非编码 (lnc) RNA 分子起作用。此类 RNA 通常比约 200 个核苷酸长,核苷酸是 DNA 和 RNA 的化学构件。劳伦斯和她的同事使用一种称为荧光原位杂交的显微镜技术表明,这种 RNA 会包裹自身围绕一条 X 染色体(在每个细胞中随机选择)以诱导持久性变化,从而沉默基因。“这是 lncRNA 发挥作用的第一个证据,”劳伦斯说,“这完全出乎意料。”

如果非编码 RNA 驱动细胞处理遗传信息的方式,那么它们有可能用于医学。

XIST 在产生 ncRNA 方面并不是那么不寻常。在 21 世纪初期,人们清楚地认识到非编码 DNA 序列的转录是广泛存在的。例如,在 2002 年,加利福尼亚州圣克拉拉生物技术公司 Affymetrix 的一个团队,在当时在那里工作的金格拉斯的领导下,报告说,人类 21 号和 22 号染色体上转录的区域远远超过蛋白质编码区域。

然而,直到 ENCODE 在 2012 年公布其结果后,ncRNA 才变得不容忽视。德国莱比锡大学的生物信息学专家彼得·施塔德勒说,对这些发现的部分反感在于,它们似乎是一种不受欢迎且不必要的复杂化。“生物学界认为我们已经知道细胞是如何运作的,因此[ncRNA] 的发现更像是一种烦恼,”他说。更重要的是,它表明,较简单的生物体并非总是人类生物学的可靠指南:细菌中的 ncRNA 要少得多,而对细菌的研究长期以来塑造了关于基因如何调控的思考。

但现在潮流已不可逆转:已经报告了数千种人类 lncRNA,马蒂克怀疑真实数字超过 50 万。然而,其中只有少数被证明具有特定功能,并且有多少真正发挥作用仍然是一个悬而未决的问题。“我个人认为并非所有这些 RNA 都具有单独的作用,”劳伦斯说。但是,有些 RNA 可能以群体形式发挥作用,以调节其他分子。

lncRNA 如何执行这种调控仍然是一个争论的问题。一种观点是,它们有助于形成所谓的凝聚体:含有各种不同调控分子的密集液态团块。人们认为凝聚体将所有相关的参与者集中在一个地方足够长的时间,以便它们共同完成工作。另一种观点是,lncRNA 会影响染色质的结构——染色质是构成细胞核内染色体纤维的 DNA 和蛋白质的组合。染色质的结构决定了哪些基因是可访问的并且可以被转录;如果染色质的某些部分过于紧密地堆积在一起,转录的酶机制就无法到达它。“一些 lncRNA 似乎与染色质修饰复合物有关,”悉尼大学的基因组学研究员马塞尔·丁格说。

如果只有 1% 到 2% 的基因组 RNA 编码蛋白质,那么其余的 RNA 是做什么用的呢?科学家们知道,其中一些 RNA 执行着关键任务,例如开启或关闭基因。

劳伦斯和霍尔怀疑 lncRNA 可以为组织其他分子提供支架,例如,通过将数百种 RNA 结合蛋白中的一些蛋白组织成功能性组件。一种名为 NEAT1 的 lncRNA 与细胞核中小室(称为核斑点)的形成有关,已被证明能够结合多达 60 种此类蛋白质。或者,这种 RNA 支架可以将染色质自身排列成特定的结构,从而影响基因调控。这种 RNA 支架可能具有规则重复的模块和重复序列——长期以来,重复序列一直被认为是垃圾 DNA 的标志,但最近似乎并非如此垃圾。2024 年一份关于小鼠脑细胞中富含重复序列的 ncRNA 的报告支持了 lncRNA 作为支架的观点,这些 ncRNA 至少持续存在两年。德累斯顿德国神经退行性疾病中心的萨拉·佐切尔和她的同事们的研究发现,这些 ncRNA 似乎是保持染色质部分处于紧凑和沉默状态所必需的。

T这些 lncRNA 只是非编码 RNA 家族的一个分支,生物学家们不断发现其他分支,这些分支似乎具有不同的功能和影响细胞(以及整个人体)发生情况的不同方式。

其中一些 RNA 根本不长,而是出奇地短。它们的故事始于 20 世纪 80 年代,当时在麻省理工学院生物学家罗伯特·霍维茨的实验室担任博士后研究员的维克多·安布罗斯正在研究蠕虫秀丽隐杆线虫中一个名为 lin-4 的基因。lin-4 的突变导致发育缺陷,其中“细胞重复了它们本应超越的整个发育程序,”现在在马萨诸塞大学医学院工作的安布罗斯说。lin-4 似乎可能是一种控制发育不同阶段时间的“主调节器”。

Graphic presents 2 views of how DNA works. The traditional view is unidirectional: DNA to RNA to protein. The emerging view includes ncRNA, which may double back to regulate DNA transcription.

珍·克里斯蒂安森;来源:悉尼新南威尔士大学约翰·马蒂克(顾问)

“我们认为 lin-4 会是一个蛋白质编码基因,”安布罗斯说。为了弄清楚这种假定的蛋白质发挥什么作用,安布罗斯和他的同事克隆了秀丽隐杆线虫基因并研究了它的产物——发现该基因的影响可能不是由任何蛋白质介导的,而是仅由该基因的 RNA 产物介导的。这个分子看起来非常短:只有 22 个核苷酸长,对于如此大的发育影响来说,只是一个分子碎片。

这是第一个已知的微小 RNA (miRNA)。起初,“我们认为这可能是秀丽隐杆线虫的特殊特征,”安布罗斯说。但在 2000 年,霍维茨实验室的另一位前博士后加里·鲁夫昆和他的同事们发现,秀丽隐杆线虫中的另一个 miRNA 基因(称为 let-7)以基本相同的形式出现在许多其他生物体中,包括脊椎动物、软体动物和昆虫。这意味着它是一个非常古老的基因,并且“在这些不同的谱系分道扬镳之前,肯定已经存在了 6 亿到 7 亿年”,安布罗斯说。如果 miRNA 如此古老,“肯定还有其他 miRNA 存在。”

确实如此。如今,人类基因组中已鉴定出 2,000 多种 miRNA,通常具有调控作用。miRNA 发挥作用的主要方式之一是干扰基因的 mRNA 转录本翻译成其相应的蛋白质。miRNA 通常来自一个更长的分子,可能约 70 个核苷酸长,称为前体 miRNA。这种分子被一种称为 Dicer 的酶捕获,Dicer 将其切成更小的片段。这些片段现在是 miRNA,移动到一类称为 Argonautes 的蛋白质,Argonautes 是称为 RNA 诱导沉默复合体 (RISC) 的蛋白质组件。miRNA 将 RISC 指导到 mRNA,这要么阻止 mRNA 被翻译成蛋白质,要么导致其降解,效果相同。miRNA 的这种调控作用指导着从细胞“命运”(它们变成的特殊细胞类型)的决定到细胞死亡和细胞周期管理等过程。

关于这种小 RNA 如何调控其他 RNA 的关键见解来自于 1998 年分子生物学家安德鲁·法厄、克雷格·梅洛及其同事对秀丽隐杆线虫的研究,法厄和梅洛因此获得了 2006 年诺贝尔生理学或医学奖。他们了解到 RISC 由略有不同的 RNA 链指导,这些 RNA 链称为小干扰 (si) RNA。该过程以 mRNA 被切成两半结束,这个过程称为 RNA 干扰。

然而,miRNA 确实提出了一个难题。给定的 miRNA 通常具有与许多 mRNA 匹配的序列。那么,它们对沉默哪些基因有选择性呢?一种可能性是 miRNA 以团伙形式工作,多个 miRNA 联合起来调控给定的基因。不同的组合,而不是单个片段,才是与特定基因及其 miRNA 相匹配的。

为什么 miRNA 基因调控会以这种复杂的方式工作?安布罗斯怀疑这可能是为了“进化流动性”:不同的 miRNA 可以协同工作的多种方式,以及它们各自可以拥有的潜在靶标数量,为基因如何调控以及可能产生的性状提供了很大的灵活性。这为生物体提供了许多进化选择,使其能够更好地适应不断变化的环境。

一类小 RNA 通过直接干扰细胞核中的转录,触发 mRNA 降解来调控基因表达。这些 PIWI 相互作用 (pi) RNA 与一类称为 PIWI Argonautes 的蛋白质协同工作。PiRNA 在生殖细胞(配子)中发挥作用,它们对抗称为转座子或“跳跃基因”的“自私”DNA 序列:这些序列可以将自身的副本插入整个基因组,从而造成破坏。因此,piRNA 是“基因组免疫系统的一部分,”奥地利科学院分子生物技术研究所的尤利乌斯·布伦内克说。如果人为关闭 piRNA 系统,“配子的基因组将被完全粉碎,生物体将完全不育,”他说。

其他类型的 ncRNA(称为小核仁 RNA)在称为核仁的细胞区室中工作,以帮助修饰核糖体(细胞的蛋白质制造工厂)以及转移 RNA 和 mRNA 中的 RNA。这些都是调控基因表达的方式。还有环状 RNA:mRNA 分子(尤其是在神经元中)在移出细胞核进入细胞质之前被缝合成环状形式。尚不清楚有多少环状 RNA 是重要的——有些可能只是转录“噪音”——但有一些证据表明,至少有些环状 RNA 具有调控功能。

此外,还有 Vault RNA,它有助于在细胞内和细胞之间运输其他分子;“小卡哈尔体特异性 RNA”,它修饰参与 RNA 加工的其他 ncRNA,等等。ncRNA 种类的激增加强了马蒂克的说法,即 RNA 而不是 DNA 是“细胞的计算引擎”。

I如果 ncRNA 确实驱动细胞处理遗传信息的方式,那么它们有可能用于医学。疾病通常是细胞做错事的结果,因为细胞获得了错误的调控指令:例如,失去对其生长和分裂周期适当控制的细胞可能会变成肿瘤。目前,医疗领域努力靶向 ncRNA 并改变其调控效应,通常使用称为 反义寡核苷酸 (ASO) 的 RNA 链。这些核酸链具有与靶 RNA 互补的序列,因此它们将与靶 RNA 配对并使其失效。ASO 自 20 世纪 70 年代末以来就已经存在。但是,由于它们在细胞中会快速降解并且容易与错误的靶标结合,从而可能产生严重后果,因此很难使它们在临床上有效。

然而,一些 ASO 正在被开发出来,以使与肺癌和急性髓性白血病等癌症相关的 lncRNA 失效。其他 lncRNA 本身可能充当药物。已知一种名为 MEG3 的 lncRNA 具有初步的肿瘤抑制作用。正在探索比 ASO 更容易微调并作为药物递送到体内的小型合成分子,用于结合 lncRNA 或以其他方式抑制其与蛋白质的相互作用。然而,让这些方法奏效并非易事。“据我所知,还没有 lncRNA 靶标或疗法进入临床开发阶段,”金格拉斯说。

Illustration of active RNA molecules behind machines

杨杰姆斯

靶向较小的调控 RNA,例如 miRNA,可能在临床上更可行。由于 miRNA 通常会击中多个靶标,因此它们可以同时执行多项操作。例如,以 miR-15a 和 miR-16-1 命名的家族中的 miRNA 通过靶向抑制细胞死亡(细胞凋亡,一种抵抗癌症的防御机制)的多个基因来发挥肿瘤抑制作用,并且正在探索用于癌症治疗。

然而,使用小 RNA 作为药物的一个问题是,它们会引起免疫反应。正是因为免疫系统的目标是抵抗病毒 RNA,所以它通常会识别并攻击任何“非自身”RNA。保护治疗性 RNA 免受免疫攻击和降解的一种策略是化学修饰其骨架,使其形成降解酶不易识别的非天然“锁定”环状结构。

一些靶向 RNA 的短 ASO 已经获准用于临床,例如用于治疗淀粉样变性的 inotersen 和用于治疗杜氏肌营养不良症的 golodirsen 等药物。研究人员还在探索少于 21 个核苷酸的反义 RNA,这些 RNA 靶向天然调控 miRNA,因为只有超过这个长度,RNA 才倾向于引发免疫反应。

对于基于 RNA 的医学来说,现在还处于早期阶段,这正是因为 ncRNA 本身在人类生物学中的重要性仍然相对较新且尚未完全理解。我们越是认识到其普遍性,我们就越有可能看到 RNA 被用于控制和改善我们的福祉。密歇根大学 RNA 生物医学中心的尼尔斯·沃尔特在 2024 年初的一篇文章中写道,RNA 疗法蓬勃发展的前景“只是让破译 ncRNA 功能的需求变得更加迫切”。他补充说,实现这一目标“最终将实现人类基因组计划的承诺”。

尽管非编码 RNA 在医学中具有这种潜力,但关于其中有多少对我们的细胞真正重要的争论仍在继续。爱丁堡大学的遗传学家克里斯·庞廷和英国诺维奇厄尔汉研究所的威尔弗里德·哈蒂是怀疑论者之一。在 2022 年的一篇文章中,他们认为大多数 lncRNA 只是“转录噪音”,是从 DNA 的随机片段意外转录而来的。“相对较少的人类 lncRNA……对人类发育、生理或行为做出核心贡献,”他们写道。

布伦内克建议对当前非编码基因数量的高估保持谨慎。尽管他同意此类基因“长期以来一直被低估”,但他表示我们不应仓促假设所有 lncRNA 都具有功能。其中许多 lncRNA 仅以低水平转录,如果它们确实只是随机噪音,那么这正是人们所期望的。爱丁堡大学的遗传学家阿德里安·伯德指出,绝大多数 ncRNA 的丰度似乎远低于每个细胞一个分子。“如果 ncRNA 在大多数细胞中都不存在,就很难看出基本功能如何发挥作用,”他说。

但金格拉斯反驳说,这种低表达率可能反映了 ncRNA 非常组织特异性的作用。他说,有些 ncRNA 在组织的一部分中比在另一部分中表达更多,这表明每个细胞中的表达水平对来自周围组织的信号很敏感。劳伦斯指出,尽管表达水平较低,但在特定类型的细胞中,通常存在共享的表达模式,这使得更难辩称转录仅仅是随机的。霍尔怀疑细胞是否真的如此容易“不良内务管理”,以至于它们会习惯性地大量产生无用的 RNA。劳伦斯和霍尔的建议,即某些 lncRNA 对染色质结构具有集体效应,这意味着并非所有 lncRNA 都需要高表达水平,并且它们的精确序列并不太重要。

丁格说,序列和结合靶标的这种缺乏特异性意味着,ncRNA 中核苷酸的突变通常不会像蛋白质编码 DNA 序列那样对其功能产生相同的负面影响。因此,看到相当多的序列变异也就不足为奇了。丁格认为,更合理的假设是“基因编码分子在被证明无效之前可能都是功能性的,而不是在被证明功能性之前都是垃圾”。ENCODE 团队中的一些人现在也同意,并非所有约 75% 的人类基因组转录物都可能具有功能意义。但许多研究人员指出,当然,比以前怀疑的更多的非编码分子在做有意义的事情。

证明 lncRNA 的功能作用通常很棘手。金格拉斯说,部分原因可能是 lncRNA 可能不是给定过程中生化活性分子:它可能会被剪切成实际上起作用的短 RNA。但是,由于长 RNA 和短 RNA 倾向于通过不同的技术进行表征,因此研究人员最终可能会寻找错误的东西。更重要的是,长 RNA 通常被切成碎片,然后以各种组合重新拼接在一起,确切的顺序通常取决于宿主细胞的状况。

从根本上说,关于非编码 RNA 的争议部分在于什么才符合“功能性”分子的标准。标准应该基于序列是否在不同物种之间保持不变?还是从生物体的库中删除该分子是否会导致性状发生某些可观察到的变化?或者仅仅是是否可以证明它参与了细胞中的某些生化过程?如果重复 RNA 作为染色体“支架”集体发挥作用,或者如果 miRNA 以某种调控群的形式发挥作用,那么它们中的任何一个真的可以被认为具有“功能”吗?

金格拉斯说,他对持续不断的关于 ncRNA 仅仅是噪音或垃圾的说法感到困惑,因为越来越多的证据表明它们确实做了很多事情。“令人费解的是,为什么会如此努力地劝说同事们将对 ncRNA 领域的兴趣和好奇心转变为更加可疑和批判的态度,”他说。

也许争论如此激烈是因为它们颠覆了我们思考生物学运作方式的方式。自从关于 DNA 双螺旋结构及其如何编码信息的划时代发现以来,分子生物学的基石思想一直是存在精确编码的指令,这些指令为特定任务编程特定的分子。但 ncRNA 似乎指向了一种更模糊、更集体的生活逻辑。这是一种更难辨别、更难理解的逻辑。但如果科学家们能够学会接受这种模糊性,那么这种生命观可能会变得更加完整。

© . All rights reserved.