分子机器控制基因

新任霍华德·休斯医学研究所所长罗伯特·蒂詹在1995年谈到我们基因的活动时说:它们受到在DNA上组装的复杂蛋白质复合物的严格调控。这些组件的正常运作受到扰乱可能导致疾病

编者按: 本文最初发表于1995年2月的《大众科学》杂志。我们本周重新发布这篇文章是因为罗伯特·蒂詹刚刚被任命为霍华德·休斯医学研究所所长。

哮喘、癌症、心脏病、免疫系统疾病和病毒感染看似是截然不同的病症。然而,它们却表现出一个令人惊讶的共同特征。所有这些疾病在很大程度上都是由于一种或多种蛋白质的过度产生或产生不足引起的,蛋白质是体内执行大多数反应的分子。这一认识最近为旨在理解并最终操纵调节蛋白质合成关键步骤——基因转录——的迷人生物化学机制的研究带来了新的紧迫性。为了生成蛋白质,必须将指定其组成的基因从DNA转录或复制到信使RNA链中,信使RNA随后充当蛋白质制造的模板。

甚至在治疗成为目标之前,转录长期以来就因另一个原因吸引着科学家:了解这一过程如何受到调控有望阐明生命的一些核心奥秘。人体中的每个细胞都包含相同的基因组,基因组是由大约15万个基因组成的集合,这些基因构成了人类的蓝图。一个生物体的原始细胞——受精卵——是如何产生无数种细胞类型的,每种细胞类型都使用略有不同的基因子集来产生不同的蛋白质混合物?一个完全形成的身体的细胞又是如何维持自身的,增加和减少它们制造的蛋白质数量以响应自身的需求和更宏大的生物体的需求的呢?


支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。 通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


为了回答这些问题并设计能够调节转录的药物,研究人员需要了解控制人类细胞中遗传密码读取的装置的组成。经过大约25年的探索,该装置的总体结构正变得清晰起来。我在加州大学伯克利分校的实验室和其他机构的工作表明,该装置的一部分——驱动大多数(如果不是全部)人类基因转录的引擎——由大约50种不同的蛋白质组成。这些蛋白质必须在DNA上组装成一个紧密的复合物,然后一种特殊的酶——RNA聚合酶——才能开始将DNA复制成信使RNA。推测的组成部分现在已在试管中组合,产生了完全可操作的转录引擎。还有其他蛋白质基本上插入引擎上的受体插槽中,并通过这样做来“编程”它,告诉它应该转录哪些基因以及转录速度有多快。这些相互作用的关键细节也在不断涌现。

来自细菌的线索 当我和我在伯克利的同事在1970年代后期开始关注人类基因时,我们对细胞中的转录机制知之甚少。但是,在该年代初期开始的研究已经提供了原核生物——细菌和其他缺乏明确细胞核的原始单细胞生物——中转录的相当清晰的图景。这项工作最终为了解人类和其他真核(有核)细胞提供了见解,并帮助定义了几乎适用于所有生物体的转录特征。细菌研究表明,基因基本上分为两个功能不同的区域。编码区指定了必须连接在一起以制造特定蛋白质的氨基酸序列。该序列由DNA双螺旋的一条链中的核苷酸(DNA的构建块)拼写出来;核苷酸通过它们携带的富氮碱基——腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)——相互区分。基因的另一个区域具有调控职责。它控制RNA聚合酶将基因的编码区转录成信使RNA的速率。

在细菌以及大多数原核生物中,调控区(称为启动子)位于一段核苷酸内,该核苷酸位于编码区起始位点前(上游)很短的距离处——通常只有10个核苷酸。为了使转录准确有效地进行,RNA聚合酶必须附着到启动子上。一旦它被定位,它就会滑到编码区的起始位点,并像轨道上的火车一样沿着DNA行进,构建编码序列的RNA副本。除非在非常长的基因中,否则任何时刻产生的RNA分子数量主要取决于RNA聚合酶分子附着到启动子并启动转录的速率。

有趣的是,RNA聚合酶是一个相当混杂的分子,无法区分启动子和其他DNA序列。为了将酶引导至特定基因的启动子,细菌产生各种蛋白质,称为sigma因子,它们与RNA聚合酶结合。由此产生的复合物能够识别并附着到启动子中选定的核苷酸序列。通过这种方式,sigma因子对RNA聚合酶进行编程,使其绕过所有非启动子序列,并且仅在指定的启动子处停留。

考虑到sigma因子对细菌基因差异激活的重要性,我和我的同事开始研究人类转录装置,寻找人类细胞中类似sigma分子的物质。但是我们低估了已进化出来从我们精细的基因组中检索遗传信息的机制的复杂性。很快就变得明显的是,人类sigma因子可能不存在,或者可能不具有与细菌中相同的形式。

令人惊讶的复杂性 如果真核生物中没有简单的sigma因子,那么这些细胞是如何确保RNA聚合酶在正确的时间以正确的速率转录正确的基因的呢?一旦真核基因的不寻常设计被描绘出来,我们就开始看到答案的曙光。

到1983年,研究人员已经确定,三种遗传元件(由离散的核苷酸序列组成)控制着RNA聚合酶在所有真核生物(从单细胞酵母到复杂的多细胞生物)中启动转录的能力。这些元件之一通常位于编码区附近,已被发现其功能很像细菌启动子。称为核心启动子,它是聚合酶开始沿编码区旅程的位点。细胞中的许多基因都具有相似的核心启动子。

苏黎世大学的沃尔特·沙夫纳和卡内基科学研究所的史蒂文·拉尼尔·麦克奈特等人还鉴定出一种不寻常的调控元件,称为增强子,它可以促进转录。这些序列可以位于核心启动子上游或下游数千个核苷酸处——也就是说,距离核心启动子非常远。随后的研究揭示了沉默子的存在,沉默子有助于抑制转录,并且同样可以位于远离核心启动子的位置。

在一个不太完美的类比中,如果核心启动子是汽车发动机的点火开关,那么增强子就像加速器,而沉默子就像刹车。真核基因可以包含多个增强子和沉默子,并且两个基因可能包含一些相同的增强子或沉默子元件,但没有两个基因在其携带的增强子和沉默子的组合中完全相同。这种安排使细胞能够单独控制每个基因的转录。

这些元件的发现导致了两个相关的——并且在当时非常令人惊讶的——结论。显然,增强子和沉默子本身无法控制RNA聚合酶的活性。据推测,它们充当一大类蛋白质的停靠位点。与增强子和沉默子结合的蛋白质——现在称为激活蛋白和阻遏蛋白——然后将刺激性或抑制性信息直接或间接地传递给RNA聚合酶(即,踩下加速器或刹车)。基因的转录速率也可能似乎是由与其各种调控元件结合的所有蛋白质(或转录因子)的组合活性决定的。

人类因子的发现 然而,我们很难解释与基因核心启动子相距甚远的DNA序列结合的蛋白质如何影响该基因的转录。与其他实验室一样,我们开始通过尝试分离人类转录因子来解决这个难题,当时尚未发现任何人类转录因子(RNA聚合酶本身除外)。我们假设,一旦我们获得了因子的纯拷贝,我们就能够更深入地了解它们的确切功能。

由于许多与DNA结合的蛋白质在读取基因中不起作用,因此我们无法通过仅根据核蛋白与DNA结合的能力来有效地找到转录因子。因此,我的小组采用了一种更具辨别力的策略,寻找在试管反应中既与DNA结合又刺激转录的蛋白质。

1982年,我实验室的博士后研究员威廉·S·迪南确定,核蛋白混合物中的某些蛋白质符合转录因子的所有要求。它与一组选定基因共有的调控元件——称为GC盒的增强子序列(因为其富含GC核苷酸)——结合。更重要的是,当添加到包含RNA聚合酶的核蛋白制剂中时,该物质仅显着增加了携带GC盒的基因的转录。因此,我们鉴定了第一个能够识别特定调控序列的人类转录因子。我们称之为特异性蛋白1(Sp1)。

我们立即着手纯化该分子。这项工作的一个令人生畏的方面是,转录因子往往仅以微小的数量出现在细胞中。通常,人类细胞总蛋白含量的千分之一以下由任何特定因子组成。1985年,我实验室的詹姆斯·T·卡多纳加找到了一种方法来克服这一重大的技术障碍——并且在此过程中引入了一种强大的新工具,此后该工具已被用于纯化无数的转录因子和其他稀有的DNA结合蛋白。

由于Sp1选择性地识别GC盒,卡多纳加合成了完全由该盒组成的DNA分子,并将它们化学锚定到固体珠子上。然后,他将复杂的人类核蛋白混合物通过DNA,预测只有Sp1会粘附在其上。正如计划的那样,当他将结合的蛋白质与合成DNA分离时,他得到了纯Sp1。

从马克·普塔什内和他在哈佛大学的同事进行的研究中,我们知道细菌转录调控因子是模块化蛋白质,其中不同的区域执行不同的任务。因此,一旦我们了解了Sp1中氨基酸的序列,我们就寻找不同模块的证据,并至少注意到两个有趣的模块。

分子的一端包含一个显然折叠成三个“锌指”的区域。锌指结构(其中蛋白质的部分围绕锌原子折叠)现在已知充当将许多激活蛋白附着到DNA的“钩子”。但在当时,Sp1只是第二个被发现使用它们的蛋白质。亚伦·克鲁格和他在英国医学研究委员会的同事在不久之前在一个青蛙转录因子中发现了锌指[参见达妮埃拉·罗兹和亚伦·克鲁格的《锌指》;《大众科学》,1993年2月]。

Sp1的另一端包含一个结构域,该结构域由两个离散的片段组成,这些片段充满了过量的氨基酸谷氨酰胺。我们强烈怀疑该区域在转录过程中起着重要作用,因为有一个惊人的发现。在试管实验中,缺乏该结构域的突变Sp1分子可以完美地与DNA结合,但它们未能刺激基因转录。这一结果表明,Sp1并非仅通过与DNA结合来影响转录;它的作用是通过使用其富含谷氨酰胺的片段——现在称为激活结构域——与其他转录机制的一部分相互作用来实现的。问题是,哪一部分?

1988年,当我们开始寻找Sp1的靶点时,我们对它的位置有了一些想法。我们的猜测是基于对所谓的基底转录复合物的新兴理解,其中一部分似乎是可能的靶点。

接近靶点
在1980年代中期,洛克菲勒大学的罗伯特·G·罗德尔和他的同事表明,除非其他几个转录因子——现在称为基底因子——也聚集在核心启动子上,否则RNA聚合酶无法转录真核基因。在1980年代的过程中,罗德尔的实验室和其他实验室已经鉴定了至少六种必需因子,称为A、B、D、E、F和H。

在试管中,这种因子组件使RNA聚合酶能够以基底速率(低且不变的速率)转录结合的基因,但它本身无法调节该速率。这就像有人制造并启动了汽车的发动机,但失去了方向盘、加速器和刹车的使用权。例如,当我的小组将复合物的组分(包括RNA聚合酶)与包含GC盒的基因混合时,我们获得了低且不变的转录水平。只有当我们将Sp1纳入混合物时,我们才看到转录的显着增加。

到1980年代后期,很明显,人类细胞至少包含两种不同的转录因子。基底因子是所有基因转录起始所必需的;其他蛋白质——激活蛋白和阻遏蛋白——决定了基底复合物启动转录的速率。不同的基因受激活蛋白和阻遏蛋白的不同组合控制。我们现在怀疑,在体内,基底复合物仅在极少数情况下自发产生;大多数时候,细胞依赖激活蛋白来启动其构建。

这些不同的发现表明,Sp1富含谷氨酰胺的结构域通过接触基底因子来增强转录。更具体地说,我们怀疑Sp1与因子D结合,并促进其与启动子的附着。我们专注于这个亚基,因为麻省理工学院的菲利普·A·夏普和斯蒂芬·布拉托夫斯基已经表明,它可以先于所有其他基底因子落在核心启动子上,并且可以促进完整基底引擎的组装。事实上,因子D是唯一能够识别DNA的基底组分。它选择性地与TATA盒序列结合,TATA盒存在于许多真核基因的核心启动子中。

为了验证我们的假设,我们需要更多地了解因子D的组成,我们假设因子D是一种单独的蛋白质。其他研究人员也想知道它的组成,因此纯拷贝的竞赛开始了。从人类细胞中分离被证明比任何人预期的都更具挑战性。因此,许多小组最终尝试了酵母细胞。最后,在1989年,几个实验室独立成功地分离出一种酵母蛋白质,该蛋白质表现出因子D的预期特性。该蛋白质被命名为TBP(TATA结合蛋白的缩写),它识别并选择性地与TATA盒结合,并且当它与RNA聚合酶和基底机制的其他成分在核心启动子处连接时,导致低水平的转录。

我们认为TBP蛋白本身就是因子D,我们着手在其他研究中检验这一想法。一旦我们这样做了,我们打算确定Sp1和其他调控因子与TBP的确切哪些区域接触。我们几乎不知道我们即将完全受挫——并做出关键发现。

意想不到的麻烦 当我的实验室的B·富兰克林·普夫用纯化的TBP分子代替我们以前在试管反应中使用的不纯因子D制剂时,他毫不费力地复制了早期的发现,即这种替代绝不会破坏基底转录。然而,令我们惊讶和沮丧的是,他发现Sp1不再能够影响基底机制。我们不得不得出结论,因子D和TBP实际上并不等价,因子D实际上由TBP和其他亚基组成。(现在已知许多转录因子由不止一种蛋白质组成。)显然,这些亚基对于基底机制的运作不是必需的,但它们对于激活蛋白对该机制的调控至关重要。

换句话说,这些额外的组分本身不是激活蛋白,因为它们不与DNA中的特定序列结合。它们也不是基底因子,因为在没有它们的情况下也可以实现低水平、不受调控的转录。它们似乎构成了第三类转录因子,我们称之为共激活因子。我们进一步提出,共激活因子而不是TBP是激活蛋白的蛋白质结合结构域的靶点。我们设想激活蛋白会与选定的共激活因子结合,以加快基底复合物启动RNA聚合酶分子运动的速率。

我们被这种设想所吸引,因为我们很难想象单个蛋白质TBP会有足够的结合位点来容纳人类细胞制造的所有激活蛋白。但是,如果与TBP紧密相关的共激活因子带有多个结合结构域,则共激活因子可以共同提供将来自数百或数千个激活蛋白的信息传递到转录引擎所需的停靠位点。

最初是普夫提出共激活因子可能充当这种适配器分子。他的数据很快让我相信他的说法可能是正确的,但我们实验室并非所有人都同意。事实上,我们在1990年初的每周会议经常被激烈的讨论打断。毫不奇怪,当共激活因子概念被呈现给该领域的其他工作人员时,他们也表示相当怀疑。在那个阶段,对一个意外且复杂化的结果做出这种反应可能是合理的,因为我们的数据只是暗示性的,而不是结论性的。我们尚未分离出单个共激活因子。

共激活因子:缺失的环节
为了让自己和科学界确信我们的说法是正确的,我们必须设计一个实验程序,该程序可以明确地确定共激活因子是否存在并按照我们设想的方式运作。在普夫提出共激活因子假设后的大约两年时间里,我们一直在努力纯化包含TBP和因子D所有其他相关成分的完整且功能性的复合物。我必须承认,当共激活因子假设似乎是基于我们研究中的某些错误时,我经历了一些黑暗时刻。

突破最终发生在1991年,当时我们实验室的研究生和博士后研究员布莱恩·D·迪纳赫特、蒂莫西·霍伊、直子·谷瀬和罗伯特·温齐尔找到了一个巧妙的方法来分离因子D的纯拷贝。随后的生物化学分析表明,除了TBP之外,完整单元还包括八种以前未知的蛋白质。由于我们尚未获得这些蛋白质可以充当共激活因子的证据,因此我们更笼统地将它们称为TBP相关因子或TAF。

在我们将结合的蛋白质与TBP分离并完成更多实验后,我们确信TAF确实将来自激活蛋白的分子信号传递到基底转录装置。例如,我们能够证明,只有在也添加TAF的情况下,将激活蛋白Sp1与基底因子和RNA聚合酶混合才能增强来自包含GC盒的基因的信使RNA的产生。后来,研究生金龙·陈在试管中将纯化的TBP和八种分离的TAF与人类基因和基底转录机制的其余部分结合在一起。各种蛋白质组装在基因上,并被证明能够响应几种不同类型的激活蛋白。我们后来表明,这些激活蛋白通过与选定的TAF直接耦合来产生其效应。因子D中的共激活因子确实共同构成了一种中央处理单元,该单元整合了DNA结合激活蛋白发出的调控信号。

普遍主题
由激活蛋白、共激活因子和基底机制形成的复合物似乎是人类sigma因子的等价物;它们也以特定的速率将RNA聚合酶拉到特定的基因。在某种程度上,可以将这些复合物视为已扩展为多个亚基的sigma因子。令人欣慰的是,我们小组和其他小组的最新证据表明,我们已经发现了真核生物中基因调控的普遍模式。这些研究证实,共激活因子也存在于酵母中,并且因子D在真菌以及人类中也由多个亚基组成。

尽管这些结果令人满意,但它们并不能完全解释激活蛋白与增强子和共激活因子的结合如何影响RNA聚合酶在活细胞中转录基因的速率。可能是激活蛋白与增强子的连接导致DNA弯曲,从而使增强子彼此之间以及与核心启动子更接近。这种排列可能有助于激活蛋白(单独或彼此协同作用)与共激活因子对接并将因子D定位在启动子上。反过来,这一步骤将促进完整基底复合物的组装。该复合物的形成可能会扭曲底层的DNA,从而使RNA聚合酶能够开始沿着编码区的旅程。

研究人员对阻遏蛋白的功能知之甚少。然而,我们中的许多人认为阻遏蛋白有时也可能与共激活因子结合。这种结合可以通过阻止激活蛋白附着到共激活因子上的常用位点来抑制转录。有时,阻遏蛋白可能会绕过基底机制,通过阻止激活蛋白与增强子连接来阻止转录。

尽管我们的知识存在差距,但我们现在可以开始勾勒出一个解释,说明为什么不同的细胞在胚胎发育和成熟生物体中产生不同的蛋白质混合物。只有当基因需要的各种激活蛋白都存在并且可以成功克服阻遏蛋白的抑制作用时,基因才会以可测量的速率转录。细胞产生的蛋白质各不相同,因为它们包含不同的激活蛋白和阻遏蛋白组。当然,这种情况引发了一个问题,即细胞最初是如何决定产生哪些转录因子的,但在这方面也正在取得进展。

未来的疗法 研究人员如何利用我们新获得的基因调控知识来开发药物,以对抗涉及基因过度或不足转录的危及生命的疾病?从理论上讲,阻止选定的激活蛋白附着到增强子或共激活因子应该会抑制不需要的转录,而稳定基因上的转录机制应该会抵消不希望有的弱转录。

可以通过将分子“塞子”装入激活蛋白中来实现阻断,从而阻止其与共激活因子相互作用,或者通过引诱激活蛋白附着到类似于共激活因子的诱饵来实现阻断。可以通过部署能够加强激活蛋白和DNA之间或激活蛋白和共激活因子之间相互作用的分子来实现复合物的稳定化。这些方法在今天看来还很遥远,但考虑到最终可能实现的应用示例,令人兴奋。

例如,以人类免疫缺陷病毒(HIV)为例,它会导致艾滋病。为了在人类细胞中复制自身,HIV需要病毒转录因子TAT来增强HIV基因的转录。如果TAT可以被某种识别TAT但忽略人类转录因子的试剂抑制,则病毒的复制可能会停止,而不会影响患者所需蛋白质的产生。

相反,某些疾病(例如高胆固醇血症)的治疗可能涉及增强选定基因的转录。高胆固醇血症会增加一个人患心脏病的风险。当低密度脂蛋白(LDL)(也称为坏胆固醇)未被有效去除时,胆固醇会在血液中累积到破坏性水平。从理论上讲,可以通过提高肝细胞中LDL受体基因的转录来纠正该疾病。该受体有助于清除血液中的LDL。这个想法可能很快就可以进行测试,因为德克萨斯大学健康科学中心达拉斯分校的迈克尔·S·布朗和约瑟夫·L·戈尔茨坦的研究正在梳理调节受体基因转录的装置的特定分子成分。

直到最近,还没有人投入大量精力来筛选小分子、天然产物或其他化合物以了解它们调节转录的能力。即便如此,市场上已经有许多药物被偶然发现通过改变转录因子的活性而起作用。其中一种RU 486(法国“堕胎”药)抑制特定类固醇受体(一类指导胚胎发育的激活蛋白)的功能。同样,免疫抑制剂环孢素和FK506抑制免疫系统某些细胞所需的基因(其蛋白质产物)的转录。然而,这些药物是间接起作用的。它们激活一种酶,该酶会阻碍基因的转录因子的功能。

随着时间的推移,调节各个基因的转录因子的精确组合肯定会被鉴定出来。药物开发人员可能会利用这些信息来设计复杂的化合物,以对抗癌症、心脏病、免疫系统疾病、病毒感染、阿尔茨海默病,甚至可能是衰老过程。这些试剂的成功程度如何,任何人都不敢妄下断言,但未来的疗法很可能会以某种方式受益于对转录的基础研究——这项研究的开始并非出于设计药物的愿望,而是出于对深入了解控制我们基因活动的分子机制的简单渴望。

© . All rights reserved.