谷歌DeepMind公司已经运用其革命性的蛋白质结构预测人工智能来寻找导致疾病的基因突变。
一种基于AlphaFold网络的新工具可以准确预测蛋白质中哪些突变可能导致健康问题——这一挑战限制了基因组学在医疗保健中的应用。
研究人员表示,名为AlphaMissense的人工智能网络是一个进步,他们正在开发类似的工具,但这不一定是一个巨大的变革。它是正在开发中的众多技术之一,旨在帮助研究人员,并最终帮助医生“解读”人们的基因组,以找到疾病的原因。但像AlphaMissense这样的工具——在9月19日发表在《科学》杂志上的一篇论文中有所描述——在临床应用之前需要经过彻底的测试。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的有影响力的故事的未来。
许多直接导致疾病的基因突变,例如导致囊性纤维化和镰状细胞病的突变,往往会改变它们编码的蛋白质的氨基酸序列。但研究人员只观察到数百万个这样的单字母“错义突变”。在人类基因组中超过7000万个可能的突变中,只有极少一部分被确凿地与疾病联系起来,而且大多数似乎对健康没有不良影响。
因此,当研究人员和医生发现他们以前从未见过的错义突变时,可能很难理解它的意义。为了帮助解释这种“意义不明的变异”,研究人员开发了数十种不同的计算工具,可以预测变异是否可能导致疾病。AlphaMissense结合了现有的解决问题的方法,这些方法越来越多地通过机器学习来解决。
定位突变
该网络基于AlphaFold,它可以从氨基酸序列预测蛋白质结构。DeepMind研究副总裁兼研究作者Pushmeet Kohli在新闻发布会上表示,AlphaMissense并没有确定突变的结构效应(这是生物学中的一个开放性挑战),而是利用AlphaFold对结构的“直觉”来识别蛋白质内可能发生致病突变的位置。
AlphaMissense还结合了一种受大型语言模型(如ChatGPT)启发的神经网络,该网络在数百万个蛋白质序列而不是单词上进行了训练,称为蛋白质语言模型。这些模型已被证明擅长预测蛋白质结构和设计新蛋白质。DeepMind研究科学家、该研究的共同负责人Žiga Avsec告诉记者,它们对于变异预测非常有用,因为它们已经了解哪些序列是合理的,哪些是不合理的。
DeepMind的网络似乎在区分已知会导致疾病的变异和那些不会导致疾病的变异方面优于其他计算工具。它在发现实验室实验中发现的问题变异方面也表现良好,这些实验一次测量数千个突变的影响。研究人员还使用AlphaMissense创建了人类基因组中每种可能的错义突变的目录,确定57%的突变可能是良性的,32%的突变可能导致疾病。
临床支持
斯德哥尔摩大学的计算生物学家Arne Elofsson说,AlphaMissense是预测突变影响的现有工具的进步,“但不是一个巨大的飞跃”。
英国爱丁堡MRC人类遗传学部门的计算生物学家Joseph Marsh同意,它的影响不会像AlphaFold那样显著,AlphaFold开创了计算生物学的新时代。“这令人兴奋。它可能是我们目前拥有的最好的预测器。但它会在两三年内成为最好的预测器吗?很有可能不会。”
Marsh说,计算预测目前在诊断遗传疾病中的作用微乎其微,医生团体的建议称,这些工具应仅在将突变与疾病联系起来时提供辅助证据。Avsec说,AlphaMissense比以前的方法更有信心地对更大比例的错义突变进行了分类。“随着这些模型变得更好,我认为人们会更倾向于信任它们。”
佐治亚州亚特兰大埃默里大学的生物信息学家Yana Bromberg强调,像AlphaMissense这样的工具在应用于现实世界之前,必须使用良好的性能指标进行严格评估。
例如,一项名为“基因组解释关键评估(CAGI)”的活动多年来一直在针对尚未发布的实验数据,对这种预测方法的性能进行基准测试。“想到医生在没有CAGI等实体评估的情况下,就采用预测并像对待真实事物一样对待它,这是我最可怕的噩梦,”Bromberg补充道。
本文经许可转载,并于2023年9月19日首次发表于。