新发现的不同疾病之间的网络揭示了隐藏的联系

庞大的医疗记录数据库已开始揭示疾病之间的联系,这些联系可能为导致我们生病的生物学失误提供见解

来自 Quanta(在此处查找原始故事 here)。

斯特凡·图尔纳 是一位物理学家,而不是生物学家。但不久前,奥地利国家医疗保险票据交换所请图尔纳和他在维也纳医科大学的同事检查一些数据。事实证明,这些数据是匿名医疗索赔记录——每次诊断、每次治疗——几乎涵盖了全国人口,人数约为 800 万人。问题是,如果像最近在希腊发生的那样,三分之一的资金蒸发掉,是否还能继续维持同样的护理标准。但图尔纳认为,这些数据还可以回答其他更深层次的问题。

在最近发表于《新物理学杂志》的一篇论文中,图尔纳和他的同事彼得·克利梅克 和 安娜·赫米尔 首先研究了 1,055 种疾病在整个人群中的患病率。他们进行了统计分析,以揭示同时患两种疾病的风险,识别出同时患两种疾病的人的百分比高于疾病不相关时的预期水平的疾病对——换句话说,患有一种疾病的患者比普通人更有可能患上另一种疾病。他们应用统计校正来降低在非常罕见和非常常见的疾病之间得出虚假联系的风险,因为诊断中的任何错误都会在这样的分析中被放大。最后,该团队将他们的结果显示为一个网络,其中疾病是节点,当它们倾向于同时发生时,节点相互连接。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。


这种分析风格揭示了一些意想不到的联系。在发表在科学预印本网站 arxiv.org 上的另一篇论文中,图尔纳的团队证实了糖尿病和帕金森病之间存在争议的联系,以及糖尿病患者出现高血压的时间的独特模式。《新物理学杂志》上的论文产生了他们希望进一步研究的其他联系。

最终,图尔纳和越来越多的其他研究人员希望利用这些疾病网络来生成关于疾病如何在分子水平上运作的假设。“这种疾病是由基因引起的吗?”图尔纳说。“它是由代谢网络中的缺陷引起的吗?是由于影响某些基因的环境因素吗?诸如此类的事情。这就是目标。”

这项工作是由这样一种认识推动的:医学中定义的疾病听起来像是整洁、 distinct 的实体,但在现实中却更加混乱。疾病往往由其症状定义。但疾病的分子根源可能具有超出我们当前理解的生物学效应。某些疾病往往会跟随其他疾病或具有高合并症发生率,尽管原因尚不清楚,但可能是因为它们源于相关的生物学缺陷。

东北大学物理学家 Albert-László Barabási 说:“其思想是,细胞水平的联系在 population 水平被放大,并以合并症的形式出现。”他发表了几篇里程碑式论文 在这个领域,包括一篇2009 年发表在 PLOS Computational Biology 上的文章,这篇文章启发了图尔纳,以及一篇 2011 年发表在 Nature Reviews Genetics 上的该领域综述。研究人员可以使用疾病网络建议生物学家寻找疾病一和疾病二之间共享的新疾病基因,例如,在似乎存在强烈联系的地方。

生物学家通常通过使用全基因组关联研究来寻找基因联系,该研究在统计上将基因标记与疾病联系起来。但在哈佛医学院,另一个研究团队正试图通过绘制非常不同类型的网络——细胞中工作的分子网络——来找到相同的联系。

生命网络
细胞内部充满了活力,微小的分子、巨大的蛋白质和 DNA 链在彼此周围冲刷,忙于各自的工作。每个参与者的工作都是其他参与者的集合——例如,蛋白质可能会从其他蛋白质上剪下碎片、运送分子或启动 DNA 的制造。它从其他参与者那里获得线索,这些参与者可以使其工作更快或更慢,或将其发送到需要的遥远区域。

如果即使是这个分子社交网络中的一个成员开始表现异常,细胞的功能也会呈现出非常不同的特征。不久之后,影响会从最初的缺陷向外扩散,在生物体的层面上引起问题——疾病。从某种意义上说,疾病只是这种社会结构潜在动态的一种表达。图尔纳希望他的疾病网络最终能够帮助揭示其中一些缺陷。

正是在亚微观层面,约瑟夫·洛斯卡佐,哈佛医学院教授,也是 Barabási 的长期合作者,正在绘制他自己的网络。他和他的团队首先从众多数据库中收集关于哪些蛋白质相互作用以及如何相互作用的数据。然后,他们使用计算机模型,勾勒出平均细胞内的社交网络,如果基因和蛋白质恰好相互作用,则将它们相互连接。洛斯卡佐的团队构建了一个包含 13,460 个蛋白质节点和 141,296 个链接的图表。(洛斯卡佐说,这些相互作用可能仅占总数的 20% 到 25%,但这只是一个开始。)然后,他们仅隔离统计学上与给定疾病相关的节点。他们将这组节点称为疾病模块。

 

他们研究的一个疾病模块是肺动脉高压——肺部高血压,可能导致心力衰竭。他们研究了全基因组关联研究表明参与的所有分子通路。然后,他们研究了在动物模型和压力下的肺动脉高压患者中哪些通路变得更加活跃。他们的疾病模块显示,先前与某些形式的疾病相关的两种蛋白质是同一分子通路的一部分,并且它们协同工作以引起细胞增殖错误,这可能与疾病的症状有关。研究人员在《肺循环》杂志上发表了他们的研究结果

另一个模块着眼于 2 型糖尿病。研究人员通过全基因组关联研究将糖尿病与基因组上的约 200 个位点联系起来。“前 18 个左右非常重要,但最后 182 个左右仅处于边缘,”洛斯卡佐说。但在疾病模块中,很明显,这 182 个基因中的一些基因是社交网络中高度连接的枢纽,而全基因组关联研究本身无法揭示这种状况。“我们现在已经探索了其中三个[基因],它们突出了以前被认为与糖尿病外围相关的通路,但从未以任何谨慎的方式证明,”他说。

将洛斯卡佐的分子网络与图尔纳和 Barabási 的疾病网络相结合,将有助于在相关性和机制之间建立桥梁。如果合并症共享重叠的分子网络,研究人员可以使用这些网络来理解其背后的生化机制。这两种类型的网络在构建方式上截然不同,但它们仅由数据可以揭示否则会被忽视的联系这一理念统一起来。但这些网络共同具有开启疾病研究新大门的潜力。

图尔纳说:“一旦你绘制了一个网络,你就是在纸上绘制假设。”“你在说,‘哇,看,我不知道这两件事是相关的。它们为什么会相关?或者仅仅是我们的统计阈值没有将它剔除?’”在网络分析中,你首先通过检查它是否重现了人们在你正在研究的任何系统中已经识别出的联系来验证你的分析。图尔纳说,在那之后,“以前不存在的那些,就是新的假设。然后工作才真正开始。”

值得记住的是,这两种技术都相对较新。洛斯卡佐可以滔滔不绝地说出他的结果可能存在缺陷的方式——关于蛋白质-蛋白质相互作用的数据的庞大不完整性是一个主要问题,但收集数据的方法也是如此,这些方法是目前最好的,但远非完美。图尔纳和他的学生仍在生物学领域寻找可以检验他们假设的合作者。图尔纳 wryly 说,在他们几年前发表了数据库的第一批结果后,“我们以为会有数百人坐在我们的办公室里”,寻求合作。到目前为止,反应更像是一点点。

芝加哥大学遗传学教授 Andrey Rzhetsky 说:“这并非没有争议。”他拥有数学生物学背景,曾在合并症网络上发表过文章。“有些人对大数据集感觉非常强烈——几乎到了狂热地拒绝接受大规模分析结果的地步。”他解释说,这种论点是,大型数据集中存在未知的偏差。就图尔纳的数据库之类的数据库而言,这些偏差源于医生将信息输入医疗记录的不同方式、种族被考虑的方式等等。Rzhetsky 承认偏差的危险,但他认为,只要研究人员谨慎地解释数据,偏差就不会消除数据的有用性。“我确实认为这是未来的方向,但这远不是一个已解决的问题,”他说。他对《新物理学杂志》上的这篇文章很感兴趣。“该模型非常简单,但方向很好,”他在一封电子邮件中写道。

洛斯卡佐意识到了他的同事的审视。“当我谈论网络医学时,”他说,“我得到了三种回应。在光谱的一端,通常是年轻人……他们说这是一个很棒的想法,我以前从未考虑过。……在光谱的另一端,我有一些和我同龄或更年长的人说:‘你在说什么?我是国家科学院的成员,而这一切都基于还原论生物学,我不会改变我的策略。’然后在中间,你有一大批人,他们持健康的怀疑态度,并且希望有一些证据表明这些概念可以为我们提供新的见解。而这正是我们一直在努力的方向。”

量子杂志 许可转载,SimonsFoundation.org 的一个编辑独立部门,其使命是通过报道数学以及物理和生命科学的研究进展和趋势来增强公众对科学的理解。

© . All rights reserved.