2013年,遗传学家斯蒂芬·埃利奇回答了一个困扰癌症研究人员近100年的问题。1914年,德国生物学家特奥多尔·博韦里提出,在癌症中观察到的染色体数量异常——称为非整倍性——可能驱动肿瘤的生长。在接下来的近一个世纪里,研究人员在这件事上进展甚微。他们知道癌症通常有额外的或缺失的染色体或染色体片段,但他们不知道这是否重要,或者仅仅是肿瘤生长的副产品——而且他们无法找到答案。
“人们长期以来一直忽视它,主要是因为它真的很难理解,”马萨诸塞州波士顿布莱根妇女医院的埃利奇说。“我们以前不知道的是,它实际上正在驱动癌症。”
埃利奇发现,在非整倍性导致肿瘤抑制基因缺失,或致癌基因的额外拷贝促进癌症的情况下,肿瘤生长更具侵略性(T. Davoli等。Cell155, 948–962; 2013)。他的见解——非整倍性不仅仅是肿瘤的一个奇怪特征,而是其生长的引擎——来自于挖掘大量的细胞数据。埃利奇说,这表明计算机筛选不断增长的信息宝库的能力如何帮助我们加深对癌症的理解,并为发现打开大门。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。
现代癌症护理具有产生大量数据的潜力。当患者被诊断出患有癌症时,可能会对肿瘤的基因组进行测序,以查看其是否可能对特定药物产生反应。随着治疗的进展,可能会重复测序以检测变化。患者也可能会对其正常组织进行测序,随着成本下降,这种做法可能会增加。医生会将患者的测试结果和病史,包括饮食和吸烟习惯,记录在电子健康记录中。患者也可能进行计算机断层扫描 (CT) 和磁共振成像 (MRI) 扫描以确定疾病的阶段。将所有这些乘以仅2013年美国诊断出癌症的近170万人,很明显,肿瘤学将产生比现在更多的数据。计算机可以挖掘数据以寻找可能促进对癌症生物学理解的模式,并为治疗提出靶点。
埃利奇的发现是他和他的同事开发的一种称为肿瘤抑制基因和癌基因探索器(Tumor Suppressor and Oncogene Explorer)的计算方法的结果。他们用它来挖掘大型数据集,包括美国国家癌症研究所(位于马里兰州贝塞斯达)维护的癌症基因组图谱,以及英国欣克斯顿的维康信托桑格研究所运行的癌症体细胞突变目录。这些数据库包含来自8,207个组织样本(超过20种肿瘤类型)的大约120万个突变。
研究人员选择了一组参数,这些参数有助于识别他们正在寻找的基因,例如突变率或良性突变与导致基因停止功能的突变的比率。然后,他们应用统计分类方法来区分肿瘤抑制基因和癌基因。大约70个肿瘤抑制基因和50个癌基因对于这些肿瘤类型已经是已知的,但埃利奇和他的同事将这一数字分别增加到大约320个和200个(尽管这个数字可能会下降,因为一些基因可能被证明是假阳性)。他们还确定了生长过程中的通路,这些通路可能成为良好的药物靶点。
做出这种发现需要大型数据集。“任何单个癌细胞都是一团糟,但如果你观察足够多的肿瘤,你就会得到一种模式,”埃利奇说。“你能弄清楚这一点的唯一方法是全局地看待它们。”
易于使用
分析8,200个肿瘤的基因组仅仅是一个开始。芝加哥伊利诺伊大学数据密集型科学计划主任罗伯特·格罗斯曼说,研究人员“正试图弄清楚如何在未来几年内汇集和分析一百万个基因组”。这是一项巨大的任务;来自单个患者的组合癌症基因组和正常基因组构成大约1太字节(10
12 字节)的数据,因此一百万个基因组将产生1艾字节(1018 字节)。格罗斯曼说,存储和分析如此大量的数据每年可能花费1亿美元。
为了使研究人员更容易访问他们需要的任何数据子集,格罗斯曼和他的同事开发了Bionimbus,这是一个基于云的开源平台,用于共享和分析来自癌症基因组图谱的基因组数据。
结果可能是强大的。芝加哥大学的病理学家梅根·麦克纳尼使用Bionimbus追踪到一个与急性髓细胞白血病 (AML) 相关的基因。科学家们已经知道,一些患有该疾病的患者丢失了7号染色体的一部分,但只能将相关基因缩小到15-20个候选基因。麦克纳尼从数据库中选择了23名患者,并使用计算机比较了他们的RNA序列,以查看是否缺少某些东西。她发现,在这些患者中,基因CUX1的一个拷贝(通常编码肿瘤抑制蛋白)已被删除(M. E. McNerney等。Blood121, 975–983; 2012)。在果蝇和小鼠中的测试表明,去除该基因的一个拷贝导致某些血细胞过度生长,并最终导致白血病。她的发现可能没有产生AML的治疗方法,但它增加了对一种疾病的理解,这种疾病的中位生存时间在过去四十年中一直停留在不到一年的时间,而且它也可能导致更准确的预后。
麦克纳尼说,即使是她的小规模项目也显示了挖掘数据的好处。“它正在极大地改变癌症生物学,”她说。“大数据取得了我们原本无法取得的飞跃。”
基因组学——以及来自其他“-组学”的数据,如蛋白质组学和表观基因组学——不是被筛选的唯一数据来源。位于弗吉尼亚州亚历山大市的美国临床肿瘤学会 (ASCO) 正在开发一个名为CancerLinQ的平台,该平台可以梳理患者的电子健康记录。这些记录越来越多地包括基因组数据,以及诊断和治疗说明,以及患者对治疗反应的衡量标准。该系统已收集了来自177,000名乳腺癌患者的记录,用于试点项目。开发人员希望该系统能在2015年夏季全面投入运行,随后将推出其他实体肿瘤。
纽约纪念斯隆-凯特琳癌症中心乳腺癌专家兼ASCO主席克利福德·胡迪斯说,CancerLinQ可能会发现临床试验遗漏的发现。随着批准的药物更广泛地部署,该系统可以收集关于不同患者群体中的副作用、药物相互作用和结果的数据。例如,它也可能会注意到,如果医生根据他们对剂量如何影响患者的评估,偏离了美国食品和药物管理局的药物剂量指南。“如果连续100个案例中医生独立地无视该指南,这有助于教导计算机该指南是错误的,”胡迪斯说。例如,计算机可能会发现,当医生根据患者的年龄调整剂量时,他们会获得更好的结果。
也可以通过结合基因组学和标准医学影像记录来进行发现。“高性能计算和大数据使我们能够跨模式进行观察,”新泽西州新不伦瑞克罗格斯癌症研究所的病理学家兼信息学主管大卫·福兰说。该中心生成组织样本的高分辨率数字图像,并在患者之间进行比较,寻找可能有助于预后的模式。它预计将生成40,000-100,000张图像。
例如,研究人员可能会看到遗传线索,表明一些患者将对特定的药物疗法产生反应,然后查看他们的CT和MRI扫描,以查看癌症的变化是否与遗传预测相符。或者他们可能会发现突变、治疗选择和吸烟史之间的相关性。“计算机程序可以同时查看所有这些模式,”福兰说。
福兰补充说,比较如此多的数据极大地扩展了医生的专业知识。“当您去看医生,尤其是肿瘤科医生时,您依赖于他过去的经验。我们现在正在做的是训练计算机查看成千上万甚至数十万人的大型队列。” 这就好像医生正在根据数十万患者的个人经验做出治疗决策。
基因序列和电子健康记录是新的数据来源,但也有很多历史信息可用。例如,马里兰州巴尔的摩约翰·霍普金斯医院拥有可追溯到1889年开业的纸质病理报告。在1984年切换到计算机记录之前,该医院生成了超过50万份记录。美国每个州都有多年或数十年的历史癌症记录,其他国家也是如此。例如,丹麦的癌症记录可以追溯到1943年。英格兰公共卫生署去年启动了一个数据库,其中包含目前全国范围内正在诊断的所有癌症,包括可追溯到30年前的1100万条记录。将所有这些历史添加到混合中,扩大了计算机可以搜索的可能线索的范围。
难以分析
但正是新技术正在创造信息繁荣。“我们收集数据的速度比我们实际处理数据的速度更快,”新泽西州皮斯卡塔韦罗格斯发现信息学研究所的计算机科学家兼负责人马尼什·帕拉沙尔说,他与福兰合作寻找处理信息的方法。“我们的捕捉大量数据的能力正在造成一些根本性的挑战,”他说。
太字节及以上级别的数据集的一个主要问题是如何操作所有数据。单个高分辨率医学图像可能占用数十吉字节,研究人员可能希望计算机比较数以万计的此类图像。将罗格斯项目中的一张图像分解为计算机可以识别的像素集大约需要15分钟,并且将如此多的信息从存储位置移动到可以处理的位置是很困难的。“我们已经有人带着磁盘驱动器到处走动,因为你无法有效地使用网络,”帕拉沙尔说。
信息学研究人员正在开发算法,将数据分成更小的包,以便在单独的处理器上进行并行处理,并压缩文件而不遗漏任何相关信息。他们还在依靠计算机科学的进步来加快一般的处理和通信速度。
福兰强调,随着肿瘤学从针对肿瘤的“一刀切”攻击转向个性化医疗,癌症的理解和治疗已经发生了巨大的转变。但癌症是受许多基因和其他因素控制的复杂疾病。“这并不是说您将解决癌症,”他说。但大数据可以提供新的、更有针对性的方法来应对这种疾病。“您可能会提出一套全新的治疗患者的蓝图。”
本文经许可转载,并于2014年5月28日首次发表。