为了从不断增长的混乱基因组数据中提炼出清晰的信息,研究人员通常转向荟萃分析——一种成熟可靠的统计程序,用于整合来自多项研究的数据。但是,荟萃分析可能挖掘答案的研究可能会无限地发散。有些研究只招募男性,另一些只招募儿童。有些研究在一个国家完成,另一些则在欧洲等地区完成。有些研究侧重于疾病的轻微形式,另一些则侧重于更晚期的病例。即使统计方法可以弥补这些类型的差异,研究也极少使用相同的方案和仪器来收集数据,或使用相同的软件来分析数据。进行荟萃分析的研究人员会竭尽全力清理各种数据,以控制这些混杂因素。
斯坦福大学的计算免疫学家普尔韦什·卡特里认为,他们的方法完全错了。他对基因组发现的方法要求在公共存储库中搜索在不同医院、不同人群中使用不同方法收集的数据——数据越混乱越好。“我们从脏数据开始,”他说。“如果一个信号在样本的异质性中仍然存在,你可以肯定你真的找到了一些东西。”
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
这种策略似乎太容易了,但在卡特里手中,它奏效了。通过分析大量的公共数据,卡特里和同事们发现了特征基因,这些基因可能使临床医生能够检测出导致脓毒症的危及生命的感染,将感染分类为细菌性或病毒性,并判断某人是否患有特定的疾病,如肺结核、登革热或疟疾。去年,卡特里和另外两位科学家成立了一家公司,开发一种在病人床边测量这些基因特征的设备。简而言之,他们正在破译宿主免疫反应,并将关键基因转化为诊断工具。
在过去的一年里,卡特里通过电话、电子邮件以及在他摆满白板的斯坦福大学办公室里与《夸塔杂志》讨论了他的想法。以下是经过编辑和浓缩的对话版本。
是什么让您对生物学产生了兴趣?
我离开印度来到美国,赶上了“修复千年虫漏洞”的热潮,计划获得计算机科学硕士学位,成为一名软件工程师。在到达底特律的韦恩州立大学几个月后,我意识到余生编写软件将会非常无聊。我加入了一个研究神经网络的实验室。
但后来我的导师转向了生物信息学,并说如果我跟他一起转,他就支付我的学费。我当时是一个贫穷的印度研究生。我想,“你要支付我的薪水?我愿意做你正在做的任何事情。” 这就是我进入生物学领域的方式。
您很快就引起了轰动。这是怎么发生的?
当我的导师在 2000-2001 年休假期间,我在实验室里与我们合作实验室的一位博士后一起进行生物信息学分析,他是一位研究男性生育相关基因的妇科医生。用于一次性对大量基因进行检测的微阵列技术是全新的。从最近的一个实验中,他获得了一份大约 3,000 个感兴趣的基因列表,他试图弄清楚这些基因的作用。
有一天,我看到他从一个网站转到另一个网站,将文本复制粘贴到 Excel 电子表格中。我对他说,“你知道,我可以为你编写软件,自动完成所有这些工作。只要告诉我你在做什么。” 所以我为他编写了一个脚本——花了我三天时间——凭借这些结果,我们写了一篇《柳叶刀》论文。
我们将该软件放在了网上。引起了巨大的兴趣。他们在一次会议上展示了它,辉瑞公司想购买它。我想,哇,这真是唾手可得的成果。我很快就能成为百万富翁了。
该软件是做什么的?
它接受您指定的一组基因,并搜索注释数据库,以告知您这些基因参与哪些生物过程和分子通路。如果您有 100 个基因的列表,它可以告诉您其中 15 个参与免疫反应,另有 15 个参与血管生成,50 个在葡萄糖代谢中发挥作用。假设您正在研究 1 型糖尿病。您可以查看这些结果并说,“我走在正确的道路上。”
那是 15 年前,我正在攻读硕士学位的时候。我开发了更多工具,并将这项工作扩展到博士学位。它现在是一套名为 Onto-Tools 的开放存取、基于网络的工具套件。几年前我最后一次查看时,它有来自许多国家的 15,000 名用户,平均每天分析 100 个数据集。
尽管这些工具非常受欢迎,但它们并没有告诉我结果是如何被使用的,它们如何帮助人们。我想了解研究如何从生物信息学分析进展到实验室实验,最终发展到可以帮助患者的东西。
您是如何实现这种转变的?
当我 2008 年来到斯坦福大学做博士后时,我的条件之一是,一位拥有湿实验室的人——有人对来自小鼠或实际患者的样本进行实验,而不仅仅是在计算机上分析数据——会支付我一半的薪水,因为我想让他们也参与进来。我想使用我在一个实验室开发的方法进行预测,然后与另一个实验室合作验证这些预测,并告诉我什么是临床上重要的。这就是我最终与生物信息学家阿图尔·布特和肾移植医生明妮·萨瓦尔合作的原因。[编者注:布特和萨瓦尔后来都从斯坦福大学搬到了加州大学旧金山分校。]
是什么将您的注意力转移到免疫学上?
在阅读论文学习器官移植排斥的基本生物学知识时,我突然有了“啊哈!”的时刻。我意识到心脏移植外科医生、肾移植外科医生和肺移植外科医生之间真的不互相交流!
无论我阅读的是关于哪个器官的资料,我都看到了一个共同的主题:移植接受者的免疫系统的 B 细胞和 T 细胞正在攻击移植器官。然而,排斥的诊断标准却不同——肾脏科医生遵循 Banff 肾移植排斥标准,心肺科医生遵循 ISHLT [国际心肺移植协会] 标准。如果生物学机制是相同的,为什么会有不同的诊断标准?作为一名计算机科学家,这对我来说没有道理。
我开始形成一个假设,即一定存在一个共同的机制——一些共同的触发因素,告诉接受者的免疫细胞,有些东西是“非自身”。在思考这个问题时,我偶然发现了一篇题为“排斥的免疫学常数”的精彩 论文。作者基本上阐述了我的假设。他们提出,虽然器官排斥的触发因素可能不同,但它们共享一个共同的通路。他们说应该有人来检验这一点。
您当时做了什么?
我开始问我的同事,“我们为什么不开始收集来自各种器官移植队列的样本,并进行分析以找出哪些共同基因参与其中?” 他们说你不能这样做,因为你必须考虑所有的异质性——不同的器官、不同的微阵列技术、不同的治疗方案。控制所有这些将是昂贵的。
此外,让每个人都贡献所有这些样本需要数年时间。我当时很着急。所以阿图尔建议获取现有的公共数据来代替。但是这些数据是“脏”的,因为它们受到许多生物和技术因素的混淆。
我想知道我们是否真的必须控制异质性。如果所有这些“脏”数据都存在,也许我们可以以某种方式将它们组合起来。如果我们发现了一个信号,尽管存在异质性,难道你不会说,哦,这就是我应该关注的东西吗?
我开始着手研究。
第一次尝试的结果如何?
我去了 基因表达综合数据库网站,下载了来自几项器官移植研究的数据——心脏、肾脏、肺、肝脏。这些数据来自五家医院,使用了至少两种不同的诊断标准。因为我们没有抛弃“不兼容”的数据,我们将我们 [允许的] 错误发现率设置得高于通常水平(20% 而不是通常的 5%)。如果我们能找到所有实体器官移植排斥反应的共同机制,我们愿意接受更多的假阳性。我们检查了一些其他的事情,例如确保一个数据集没有驱动所有结果,并采取了一些额外的步骤来确保我们不仅仅是获得一堆变化的基因。结果奏效了。
您说的“奏效了”是什么意思?
使用大量异质数据,我们发现了一组 11 个基因,这些基因在排斥移植器官的患者中过度表达,我们证明了我们可以在来自不同国家不同医院的其他队列中验证该基因特征。此外,使用这组基因,我们可以预测——从移植手术后六个月的活组织检查中——哪些患者在 18 个月后会出现明显的亚临床移植物损伤(一种比急性排斥更难检测到的疾病)。因此,它也是一种预后标志物。
我们在小鼠身上证实了这些结果。我们从一只小鼠身上取出一颗心脏,放入另一只动物体内,并询问:当我们看到移植排斥反应时,这些基因会发生变化吗?答案是肯定的。
然后,我们进行了谷歌搜索,以寻找其机制表明它们调节我们发现的基因的生物过程的药物。我们选择了两种 FDA 批准的药物在我们的老鼠身上试用。瞧,它们奏效了。这两种药物都减少了移植物浸润免疫细胞 [排斥反应的标志物]。它们看起来与我们目前给移植患者使用的药物一样有效。
这两种药物之一是他汀类药物,一种广泛用于预防心脏病的药物。我向前同事寻求帮助,他现在在比利时工作,并且可以访问追溯到 1989 年的电子病历。我请他在数据库中搜索接受肾移植的患者,看看他们服用了哪些药物,他们的移植物何时失效等等。他运行了分析,一周后对我说,“你猜怎么着?如果患者接受了他汀类药物治疗,他们的移植物衰竭率降低了 30%。”
诊断、预后、治疗以及根据电子病历验证研究结果——所有这些都在一篇 论文 中。
我不太明白您的方法与传统的荟萃分析有何不同。根本的区别是什么?
最大的区别在于我们的小组忽略了数据集之间的异质性,而在传统的荟萃分析中,我们被教导要减少异质性。
例如,人们会说,“我不会使用这个样本,因为那个病人接受了不同的药物治疗。或者,也许这些病人是移植后的早期,而另一个数据集是晚期,移植五年后,所以我不会使用该数据。” 在生物信息学中,我们学会了获取数据集并选择样本,确保没有噪音,没有混杂因素。
但是,当我们这样做时,它并不能捕捉到疾病的异质性。我们知道这一点。这就是为什么我们必须在其他队列中重复研究结果。
我想说的是,不要担心异质性。使用脏数据可以让您考虑临床异质性。
但为了确保异质性不会搞砸我的结果,我设定了严格的标准来验证我们发现的基因与医疗状况之间的统计关联并非偶然。验证必须在一个独立队列中进行,该队列不是发现集的一部分。换句话说,如果一个实验室发表了多个数据集,我预先将每个数据集都指定为发现队列或验证队列。[编者注: 传统上,研究人员通常将一组参与者分成两个亚组:一个“发现”组,用于挖掘与某种疾病相关的基因,以及一个“验证”组,他们单独分析该组以验证在发现组中识别出的基因。]
这种方法奏效了。我们使用大量脏数据识别出的基因——我们只是采用了我们能找到的所有生物和技术异质性——我们已经能够在来自不同国家不同医院的不同小组的队列中进行验证。
去年秋天,我们 发表 了一套指南,以便任何人都可以这样做。它比较了几种方法,并且非常技术性,但重点是:当您使用三到五个数据集,总共 200-250 个样本时,可重复性很好(大于 85%)。您选择哪种荟萃分析方法并不重要。真正重要的不是拥有一个大型的同质数据集,而是拥有多个异质数据集。
我们的方法 MetaIntegrator 在 CRAN 上可用,CRAN 是用 R 编写的程序的开放存取存储库。
最近,我们进行了一项分析,表明使用脏数据不仅是好的,而且是必需的,因为文献中存在研究偏差。我们刚刚在 biorxiv.org 上发布了预印本。要点是,基于已发表的内容形成假设,就好比在随机的路灯下寻找钥匙,因为那里的光线更好。
除了移植排斥之外,您的方法是否适用于其他情况?
我们已将此框架应用于癌症以及感染性和自身免疫性疾病。例如,我的一个朋友研究由基因 KRAS 突变驱动的癌症。他来找我问,“我对这五个基因很感兴趣。你能运行你的分析,告诉我我应该关注哪些基因吗?”
我对 13 个数据集运行了该方法:6 个用于胰腺癌,7 个用于肺癌。无论我做什么,一个基因总是表现出变化最大。他凭借该结果继续研究并找出了一个机制,它成为了一篇 《自然》 论文。
那是 2014 年,就在当地一位十年级学生来做暑期研究项目之前。您向他提出了什么建议?
更多地思考器官移植工作的 11 个基因,我开始想:这组基因有多特异性?当您感染时,这 11 个基因也会增加吗?癌症呢?自身免疫性疾病呢?
我对那个夏天在我这里工作的学生说,让我们开始收集所有这些不同疾病的数据。只需下载数据,运行我们的流程,然后向我展示基因特征——每个条件下基因表达发生变化的基因列表。他使用了 173 个微阵列数据集,其中包含来自 42 种疾病的 8,000 多个人类样本。细菌感染、病毒感染、自身免疫性和神经退行性疾病、精神疾病、癌症。
他整个夏天都在下载数据,将其放入我们的数据库并进行注释——无论是病例还是对照,什么疾病,什么组织。对于每种疾病,他都识别出一个基因特征。基于这些特征,他将每种疾病与每种其他疾病相关联。简单的相关性:如果一个基因在这种疾病中上调,它是否也在另一种疾病中上调?然后他进行了层次聚类。你能想象到的最简单的事情。
他给我带来了一张图——一张总结所有这些结果的矩阵——我一直把它作为解决新问题的来源。一个高中生的暑期项目奠定了我实验室的核心研究方向!
最近有哪些发现?
几年前,在我实验室攻读生物医学信息学硕士学位的斯坦福大学外科住院医师蒂姆·斯威尼使用这种方法系统地弄清楚是什么引起了免疫反应——就像一个流程图。他首先用它来找到一个基因特征,以 区分脓毒症和非感染性炎症,然后区分它是 细菌感染还是病毒感染。如果是病毒性的,是 流感还是其他疾病?如果是细菌性的,是结核病吗?除了细菌和病毒,感染也可能是由寄生虫引起的。最近,我们为一个人对疟疾的反应识别出了一个 基因特征。我们现在可以通过测量宿主免疫反应中的基因表达来回答所有这些问题。
去年五月,蒂姆和我帮助创立了一家公司 Inflammatix,以商业化我们基于“脏数据”的诊断方法。该公司已从斯坦福大学获得了这些特征的许可,并将开发方法来充分利用脏数据的潜力。我认为我们甚至还没有触及我们可以使用现有数据的皮毛。
还有一件事。在我们 2014 年的 《癌症研究》 论文 中,我们表明酶 PTK7 在肺癌中起着重要作用。如果降低它的水平,肿瘤就会开始缩小。当时,PTK7 被称为“孤儿受体酪氨酸激酶”——不知道它在体内的结合位置。但在今年早些时候,辉瑞公司 发表 了一份关于一种靶向 PTK7 用于非小细胞肺癌的药物的报告。
所有这些似乎都会说服其他研究人员采用您的方法。他们采用了吗?
我担心的是,当我们发表这篇文章的那一刻,就会有很多人与我们竞争。然而,现在它已进入公共领域,但几乎没有人使用它!
当我介绍这种方法时,我会得到拥护者。但在那之前,我会收到这样的拨款审查意见,就像我前几天在 Twitter 上发布的那样:主要研究者“似乎喜欢闪光的东西,并且漫无目的地从一个闪亮的项目跳到另一个项目”。
所以这就是我的挑战。我们如何说服他们?
其使命是通过报道数学以及物理和生命科学的研究进展和趋势来增进公众对科学的理解。