2000年人类基因组草图序列的公布,引发了人们对基因组学将如何显著改变癌症等疾病治疗的enthusiastic predictions。此后的几年里,人类基因组测序的成本下降了10万倍(仅需数千美元),测序所需时间也从数月缩短到一天多一点。因此,研究人员现在可以生成前所未有的大量数据,以帮助对抗癌症(见S20页)。
然而,到目前为止,我们扩大的数据生成能力尚未像某些人预期的那样,在医学或我们对疾病的理解方面发生变革。造成这种令人失望结果的一个主要原因是未能有效处理捕获和共享关于大量样本的适当临床数据的问题。
癌症研究人员的最终目标是向治疗患者的医生提供可操作的即时护理信息。例如,这意味着生成易于阅读的报告,详细说明患者的疾病状态与其对可用疗法的可能反应之间的关联——这些关联由各种临床和基因组属性定义,并且应该由大型、精心管理的知识库支持。然后,这些信息可以帮助医生快速决定哪种治疗方案最有可能对每位患者有效。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
研究已经确定了一些基因变异或基因表达谱与临床终点(如药物反应)之间的关联。但是,鉴于生成大规模基因组谱数据的能力,他们识别出的变异比预期的要少得多。这种不足可归因于当前临床研究范式的缺陷。
大多数临床和转化研究的基本设计都涉及明确定义的患者队列之间的比较。研究人员可能会根据结果(例如,对治疗的反应)将患者分为几组,并询问是否存在基因组特征(如突变或基因表达模式)可以可靠地区分反应者和无反应者。或者,他们可以根据基因组状态定义患者组,然后询问在某些相关终点(如生存期)方面是否存在有意义的差异。癌症研究已经产生了数千项这样的基因组研究,涉及数十万患者的数据。但是,已发表的研究中,只有极少数经过了彻底的验证,更少有被证明具有临床实用价值。
尽管研究人员争先恐后地生成基因组数据,但这本身并不足以推动该领域的发展。一个挑战是开发有效处理海量基因组数据的分析方法。特别是,需要更好的方法来“标准化”不同技术或不同地点生成的数据,以便可以跨研究比较结果——这个问题看似微不足道,但仍然没有通用的解决方案。还需要更有效地综合不同类型信息以进行预测的方法,包括模拟驱动疾病的复杂交互网络的方法。并且必须制定标准来支持可重复的研究,促进在集体数据背景下验证任何单项研究的结果。
但是,在生物医学研究中使用“大数据”的最大障碍不是方法论问题。相反,它是缺乏关于正在分析其样本的患者的统一、匿名临床数据。如果没有这些数据,即使定义实验队列也很困难,并且存在遗漏潜在的明显混杂因素的风险。不幸的是,几乎每项已发表的研究都缺乏充分解决基本研究问题或允许在其他研究中验证一项研究结果的临床数据。
解决这个问题的第一步是制定更灵活的患者知情同意程序,以便在研究中广泛使用匿名临床数据。这一点尤为重要,因为在研究开始时,研究人员可能不知道哪些变量可能对定义相关队列很重要,或者可能最终会混淆分析。
第二步是开发医院和实验室计算基础设施和数据安全协议,以改善临床数据的共享、访问和合理使用。重现结果的一个主要障碍是,公开可用的数据集很少包含正确的临床信息来定义适当的队列或测试基因组特征的相关性。
最后,数据共享文化必须改变。尽管基因组学研究结果的发表通常需要共享基因组数据,但临床数据的共享通常仅限于最基本的信息:手稿中描述的细节。即使是常见的临床变量,例如患者的性别、治疗史、吸烟史、种族甚至标准疾病亚型,也常常不提供。再次缺乏此类关键信息使得难以重现分析结果或验证其他已发布的数据集。
大数据具有为癌症等疾病提供新见解的巨大潜力。但是,只有解决如何最好地共享解释它所需的临床信息,才能实现这种潜力。如果我们最终要创建必要的知识库,以便向医生及其患者提供清晰、简洁、可靠和可操作的信息,那么更全面地理解这一点至关重要。
本文经许可转载,并于2014年5月28日首次发表。