“如果我们希望更多地了解癌症,我们现在必须专注于细胞基因组。”诺贝尔奖获得者雷纳托·杜尔贝科在 20 多年前写下了这些话,这是最早公开呼吁后来成为人类基因组计划的倡议之一。“我们正处于转折点,”开创性的癌症研究人员杜尔贝科在 1986 年的《科学》杂志上宣称。前几年的发现已经清楚地表明,癌细胞的大部分异常行为源于其基因的损伤和功能的改变。“我们有两个选择,”他写道。“要么尝试通过零敲碎打的方法发现与恶性肿瘤相关的基因,要么对整个基因组进行测序。”
杜尔贝科和科学界的其他人士都认识到,对人类基因组进行测序虽然本身就是一项里程碑式的成就,但这仅仅标志着充分了解癌症生物学探索的第一步。有了正常人类 DNA 中核苷酸碱基的完整序列,科学家们接下来需要根据人类基因的功能对其进行分类——这反过来可以揭示它们在癌症中的作用。在过去的二十年里,杜尔贝科的愿景已经从痴人说梦变成了现实。在人类基因组计划完成不到三年后,美国国立卫生研究院正式启动了一项旨在创建癌症相关基因组变化综合目录的试点阶段工作:“癌症基因组图谱”(TCGA)。
以极大的紧迫性开展这项下一个雄心勃勃的大规模生物学事业的主要原因是癌症对人类造成的可怕伤害。每天有超过 1,500 名美国人死于癌症——大约每分钟一人。随着美国人口老龄化,除非研究人员找到加速识别癌细胞内新弱点并开发攻击这些靶点的新策略的方法,否则预计这一比率在未来几年将显着上升。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
然而,无论意图多么崇高,仅仅渴望减轻人类痛苦不足以证明如此规模的研究事业是合理的。当应用于 50 种最常见的癌症类型时,这项工作最终可能会证明相当于超过 10,000 个人类基因组计划,就待测序的 DNA 的绝对量而言。因此,梦想必须与对新兴科学机会的雄心勃勃但切合实际的评估相匹配,以便对癌症发动更明智的战争。
基因疾病
细胞基因组的改变是所有形式癌症的核心的想法并不新鲜。自从 1981 年首次鉴定出人类基因的致癌版本(称为癌基因)以来,科学家们越来越认识到,癌症主要是由特定基因的突变引起的。损伤可能是由于暴露于毒素或辐射、DNA 修复过程中的缺陷或 DNA 在细胞分裂前复制时发生的错误造成的。在相对罕见的情况下,癌症易感突变存在于从祖先那里遗传下来的基因变异中。
无论其起源如何,这些突变都会扰乱生物途径,导致不受控制的细胞复制或生长,这是癌症的特征,也是其他恶性肿瘤的标志,例如侵入邻近组织和扩散到全身各部位的能力。一些突变可能会使正常情况下防止细胞异常行为的基因失效,而另一些突变则会增加破坏性基因的活性。大多数细胞必须获得至少几个这样的改变才能转变成癌细胞——这个过程可能需要数年时间。
在过去的二十年中,许多独立的研究小组使用了突破性的分子生物学技术来寻找可能对正常细胞生长和行为模式造成严重破坏的候选基因中的突变。这种方法已经鉴定了大约 350 个与癌症相关的基因,并对这种极其恶性的疾病产生了许多重要的见解。迈克尔·斯特拉顿小组在英国剑桥的韦尔科姆基金会桑格研究所维护着一个名为癌症体细胞突变目录(COSMIC)的这些变化的数据库。但是没有人认为这是完整的列表。
那么,当我们现在拥有大幅提高发现范围和速度的手段时,继续以家庭工业规模探索癌症的基因组基础是否有意义呢?近年来,许多想法、工具和技术已经出现,更重要的是,它们以一种方式融合在一起,这让癌症和分子生物学界的许多领军人物相信,现在是时候对癌症基因组学进行系统、协作和全面的探索了。
人类基因组计划通过创建正常人体组织基因组中 30 亿个 DNA 碱基对的标准参考序列,为 TCGA 奠定了坚实的基础。现在需要另一项倡议来比较正常细胞和癌细胞基因组的 DNA 序列和其他物理特征,以识别驱动癌症标志性特征的主要遗传变化。人类基因组计划也证明了国际合作伙伴关系在大规模生物学中汇集资源和加速科学发现的重要性,TCGA 正在探索类似的合作。
最后,人类基因组计划推动了用于测序和分析基因组的技术的显着进步。例如,在 1990 年该项目启动时,DNA 测序的成本超过每“完成”的核苷酸碱基 10 美元。今天,每个碱基的成本不到一美分,并且随着创新测序方法的出现,预计还会进一步下降[参见乔治·M·丘奇的《全民基因组》;《大众科学》,2006 年 1 月]。由于这些和其他技术发展,TCGA 中体现的大规模方法——即使在几年前也是不可想象的——已经成为识别癌症相关广泛基因组因素的最有效和最具成本效益的方式。
概念验证
当然,如果不能证明全面了解癌症的分子起源实际上可以改善人们的护理,那么成堆的数据就没有多大价值。最近的一些发展提供了概念验证,即识别癌细胞中的特定基因变化确实可以为诊断、治疗和预防该疾病指明更好的方法。它们为未来的发展提供了令人鼓舞的一瞥,也证明了为什么通往这些回报的步骤是复杂、耗时且昂贵的。
2001 年,当韦尔科姆基金会桑格研究所开始自行努力使用基因组技术探索癌症时,该项目的直接目标是优化机器人技术和信息管理系统,在涉及对 378 个癌症样本中的 20 个基因进行测序的测试运行中。但是,该小组在一年后取得了突破,他们发现一个名为 B-RAF 的基因在他们检查的大约 70% 的恶性黑色素瘤病例中发生了突变。各种研究人员迅速将目光投向这种最致命的皮肤癌中潜在的新治疗靶点。他们在细胞系和小鼠中测试了多种方法——从经典化学药物到小干扰核糖核酸——以查看这些干预措施是否可以阻断或降低 B-RAF 的活性或抑制一种名为 MEK 的蛋白质,该蛋白质由于 B-RAF 突变而过度产生。仅仅五年后,这些疗法中最有希望的疗法正在临床试验中进行测试。
其他研究小组已经专注于与某些类型的乳腺癌、结肠癌、白血病、淋巴瘤和其他癌症相关的基因突变,以开发分子诊断,以及预后测试,这些测试可以指出当前化疗武器库中的一种药物,特定患者最有可能对其产生反应。癌症基因组学还帮助直接塑造了一些最新疗法的开发和使用。
例如,药物格列卫旨在抑制由两个基因(称为 BCR-ABL)的突变融合版本产生的酶,该酶会导致慢性粒细胞白血病。格列卫被证明对该疾病非常有效,并且在治疗更复杂的遗传性恶性肿瘤(如胃肠道间质瘤)和涉及类似酶的其他几种相对罕见的癌症中也显示出价值。赫赛汀是一种靶向称为 HER2 的细胞信号接收蛋白的药物,它对 HER2 基因异常繁殖导致受体蛋白过度产生的乳腺癌有效。
基于患者癌症中特定基因突变选择治疗策略的方法也在肺癌药物易瑞沙和特罗凯以及肺癌、结肠癌和其他癌症药物阿瓦斯丁的研究中进行测试。这些新的基于基因的诊断、预后和治疗方法的性能当然是好消息,但此类干预措施的清单仍然远远短于学术界和私营部门的研究人员能够随时访问癌症中发生的整个基因组变化图谱的情况。
约翰·霍普金斯大学的研究人员最近领导的一项研究说明了应用于癌症基因发现的大规模基因组学的力量,以及全面的癌症基因组图谱将是一项多么巨大的事业。该小组对取自 11 名结直肠癌患者和 11 名乳腺癌患者的肿瘤组织中的约 13,000 个基因进行了测序,并报告发现近 200 个不同基因中可能存在显着突变。有趣的是,只有大约十几个基因先前与这两种类型的癌症有关,而且大多数科学家通常预计只会发现更多几个。
研究人员对癌细胞基因组进行测序时遇到的主要挑战之一是难以区分肿瘤样本中无意义的突变与癌症相关的突变。有点令人惊讶的是,早期的测序研究还发现,不同类型癌症中存在的基因突变几乎没有重叠,甚至同一类型癌症患者的肿瘤样本中基因突变模式也存在显着差异。这些发现强调了这样一种观点,即许多不同的突变组合可以将正常细胞转化为癌细胞。因此,即使在患有相同身体器官或组织癌症的患者中,每个人肿瘤的遗传谱也可能大相径庭。
要掌握 TCGA 希望实现的全部范围,必须考虑此类早期工作中确定的复杂性,并想象将这项工作扩展到 100 多种类型的癌症。这足以让即使是人类基因组计划的资深人士和经验丰富的癌症生物学家也停下来思考。然而,TCGA 参与者和来自世界各地的其他科学先驱正在勇往直前,因为我们深信,在癌症基因组的复杂性中,可能蕴藏着拯救患者生命的最大希望。
尽管研究人员可能需要多年时间才能完成导致正常细胞变成恶性肿瘤的所有基因组突变的综合目录,但具有彻底改变癌症治疗潜力的发现很可能在该概要完成之前就会出现,正如概念验证所显示的那样。随着每种新类型的癌症被研究并添加到 TCGA 中,研究人员将获得另一组丰富的新基因组靶点和谱,可用于开发更具针对性的疗法。
编纂巨型图谱
在人类基因组计划开始时被证明成功的分阶段策略是在扩大到全面的 DNA 序列“生产”之前测试协议和技术。同样,TCGA 正从一个试点项目开始,以开发和测试最终绘制癌症中所有基因组异常图谱所需的科学框架。
2006 年,美国国家癌症研究所和美国国家人类基因组研究所选择了将参与该试点项目的科学团队和机构,以及他们将开始检查的癌症类型。在未来三年内,这两个研究所将投入 1 亿美元,用于编纂三种肿瘤类型的基因组变化图谱:脑胶质母细胞瘤、肺癌和卵巢癌。选择这些特定癌症有几个原因,包括它们在衡量将该项目扩展到更多癌症类型的可行性方面的价值。事实上,只有当这个试点阶段实现其目标时,美国国立卫生研究院才会推进一个全面的项目来开发完整的癌症图谱。
我们为试点选择的三种恶性肿瘤每年在美国共造成超过 21 万例癌症病例,仅在 2006 年就在美国造成约 19.1 万人死亡。此外,符合项目严格的科学、技术和伦理要求的肿瘤标本库也存在于这些癌症类型中。去年 9 月,我们的研究所宣布选择了三个生物样本库来提供此类标本,以及根据需要提供新的肿瘤样本,以及来自同一患者的正常组织用于比较。这些机构将向中央生物样本核心资源提供材料,中央生物样本核心资源是 TCGA 试点项目中的四个主要结构组成部分之一。
癌症基因组表征中心、基因组测序中心和数据协调中心构成了该项目的其他三个主要要素,所有这些小组将合作并公开交换数据。具体而言,七个癌症基因组表征中心将使用各种技术来检查肿瘤样本中基因的活性水平,并揭示和编目所谓的导致癌症发生和发展的“大规模”基因组变化。此类改变包括染色体重排、基因拷贝数变化和表观遗传变化,表观遗传变化是对 DNA 链的化学修饰,可以在不实际改变 DNA 序列的情况下打开或关闭基因活性。
癌症基因组表征中心鉴定的基因和其他染色体区域将成为三个基因组测序中心的测序目标。此外,怀疑在癌症中很重要的基因家族,例如编码参与细胞周期控制的酶(称为酪氨酸激酶和磷酸酶)的基因家族,将被测序以鉴定其 DNA 代码中的基因突变或其他小规模变化。目前,我们估计在这个试点项目中将对大约 2,000 个基因——在每个可能 1,500 个肿瘤样本中——进行测序。确切的数字当然将取决于获得的样本以及癌症基因组表征中心对它们的发现。
测序和基因组表征小组(其中许多是人类基因组计划的参与者)都可以预期会遇到比正常细胞 DNA 中更高的复杂程度。一旦细胞癌变,随着其自我控制和修复机制失效,它们更容易发生更高的突变率。因此,单个肿瘤内单个细胞的基因组构成可能会发生显着变化,整合团队需要开发稳健的方法来有效地区分潜在的具有生物学意义的突变“信号”与许多肿瘤中看到的突变高背景率的“噪声”。此外,肿瘤几乎总是含有一些非恶性细胞,这会稀释样本。如果待测序的肿瘤 DNA 过度异质,则可能会遗漏一些重要的突变。
遵循人类基因组计划和其他近期医学基因组学工作的领导,所有这些数据都将迅速免费地提供给全球研究界。为了进一步增强其对基础和临床研究人员以及最终对医疗保健专业人员的实用性,TCGA 将其序列数据和基因组分析与有关原始肿瘤的可观察特征以及样本捐赠者的临床结果的信息联系起来。因此,开发生物信息学工具来收集、整合和分析这些海量数据,同时保护患者信息的机密性,是将我们的愿景变为现实的另一个必须清除的障碍。
未知的领域
未来的道路充满了科学、技术和政策挑战——其中一些是已知的,另一些是未知的。有待解决的不确定性包括:新的测序技术能否及时兑现其早期承诺,使这项工作在经济上可行?我们改进和扩展系统地检测癌症中表观遗传变化和其他大规模基因组改变(尤其是与转移相关的改变)的工具箱的速度有多快?我们如何利用计算生物学的力量来创建对基础生物学家、临床研究人员以及最终对第一线的医疗保健专业人员有用的数据门户?我们如何以一种既促进基础研究又促进疗法开发的方式来平衡知识产权?国会何时才能最终通过基因非歧视立法,以便通过 TCGA 获得的知识能够对美国人的健康产生最大的积极影响?清单还在继续。
为了避免引起虚假的期望,我们还必须明确这个项目不会试图回答的问题。尽管它将作为广泛生物学探索的资源,但 TCGA 只是未来癌症研究的基础,当然不是整栋房子。我们还面临着时间的严峻问题——对于许多癌症患者及其家人来说,时间非常紧迫。当我们审视当前关于癌症基因组知识的地图中存在的相当大的空白时,填补这些空白的前景既令人振奋又令人畏惧。科学家和公众需要预先了解,这项前所未有的分子制图探索将需要来自许多不同学科的数千名研究人员多年的辛勤工作和创造性问题解决。
所有这些工作将走向何方,今天只能隐约看到。从这个意义上说,我们的处境与 19 世纪早期的探险家梅里韦瑟·刘易斯和威廉·克拉克相似。当他们在 1804 年冒险沿着密苏里河进入基本上未知的西北地区时,托马斯·杰斐逊总统给他们的命令是“在所有显着点记录纬度和经度……。您的观测结果必须以极大的细致和准确性进行;清晰且易懂地输入,供他人以及您自己使用。”
尽管刘易斯和克拉克没有找到渴望已久的横贯大陆的水路,但他们详细的地图证明对他们羽翼未丰的国家在杰斐逊永远无法想象的无数方面都很有价值。为了所有那些生活已经并将被癌症触动的人们,我们只能希望我们 21 世纪的癌症生物学远征甚至超越雷纳托·杜尔贝科最伟大的梦想。