DeepMind 的 AI 在解决蛋白质结构方面取得巨大飞跃

科学家表示,谷歌用于确定蛋白质 3D 形状的深度学习程序有望改变生物学

解决蛋白质的 3D 结构,例如 SARS-CoV-2 刺突蛋白的结构,长期以来一直是生物学的目标。

谷歌 AI 分支 DeepMind 开发的人工智能 (AI) 网络在解决生物学最宏大的挑战之一——从蛋白质的氨基酸序列确定其 3D 形状方面取得了巨大的飞跃。

DeepMind 的程序 AlphaFold 在一项名为 CASP(蛋白质结构预测关键评估的缩写)的两年一度的蛋白质结构预测挑战赛中,击败了大约 100 个其他团队。结果于 11 月 30 日在会议开始时宣布——今年的会议以虚拟方式举行——评估了这项工作。

“这是一件大事,”马里兰大学帕克分校的计算生物学家 John Moult 说,他于 1994 年共同创立了 CASP,旨在改进用于准确预测蛋白质结构的计算方法。“在某种意义上,问题已经解决了。”


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


从氨基酸序列准确预测蛋白质结构的能力将对生命科学和医学产生巨大的推动作用。它将极大地加速了解细胞构建模块的工作,并实现更快、更先进的药物发现。

AlphaFold 在上届 CASP(2018 年,伦敦 DeepMind 首次参与)中名列榜首。但是,今年,该公司的深度学习网络遥遥领先于其他团队,科学家们表示,其表现令人难以置信地出色,可能预示着生物学领域的一场革命。

“这是一个游戏规则改变者,”德国蒂宾根马克斯·普朗克发育生物学研究所的进化生物学家 Andrei Lupas 说,他评估了 CASP 中不同团队的表现。AlphaFold 已经帮助他找到了困扰他的实验室十年的蛋白质结构,他预计这将改变他的工作方式和他要解决的问题。“这将改变医学。它将改变研究。它将改变生物工程。它将改变一切,”Lupas 补充道。

在某些情况下,AlphaFold 的结构预测与使用“金标准”实验方法(如 X 射线晶体学)以及近年来 冷冻电子显微镜 (cryo-EM) 确定的结构无法区分。科学家们表示,AlphaFold 可能还不能取代对这些费力且昂贵的方法的需求,但 AI 将使以新的方式研究生物成为可能。

结构问题

蛋白质是生命的基石,负责细胞内部发生的大部分活动。蛋白质的工作方式和功能取决于其 3D 形状——“结构即功能”是分子生物学的一条公理。蛋白质倾向于在没有帮助的情况下形成其形状,仅受物理定律的指导。

几十年来,实验室实验一直是获得良好蛋白质结构的主要方法。从 1950 年代开始,蛋白质的第一个完整结构是通过一种技术确定的,该技术将 X 射线束照射到结晶蛋白质上,并将衍射光转换为蛋白质的原子坐标。X 射线晶体学产生了大部分蛋白质结构。但是,在过去的十年中,冷冻电镜已成为许多结构生物学实验室的首选工具。

科学家们长期以来一直想知道蛋白质的组成部分——一串不同的氨基酸——如何描绘出其最终形状的许多曲折和折叠。研究人员表示,在 1980 年代和 1990 年代,早期尝试使用计算机预测蛋白质结构的效果很差。已发表论文中对方法的崇高声明往往会在其他科学家将其应用于其他蛋白质时瓦解。

Moult 发起了 CASP,旨在为这些努力带来更多的严谨性。该活动挑战团队预测已使用实验方法解决但尚未公开结构的蛋白质结构。Moult 认为这项实验——他没有称之为竞赛——通过对过度炒作的说法进行及时制止,极大地改善了该领域。“你真的在找出哪些看起来有希望,哪些有效,以及你应该放弃哪些,”他说。

DeepMind 在 2018 年 CASP13 上的表现让该领域的许多科学家感到震惊,该领域长期以来一直是小型学术团体的堡垒。但伊利诺伊大学芝加哥分校的计算生物学家 Jinbo Xu 说,它的方法与其他应用 AI 的团队的方法大致相似。

AlphaFold 的第一个迭代版本将称为深度学习的 AI 方法应用于结构和遗传数据,以预测蛋白质中氨基酸对之间的距离。DeepMind 的 John Jumper 说,在不调用 AI 的第二步中,AlphaFold 使用此信息来提出蛋白质应该是什么样子的“共识”模型,他正在领导该项目。

Jumper 说,该团队试图在此方法的基础上进行构建,但最终遇到了瓶颈。因此,它改变了策略,开发了一个 AI 网络,该网络结合了关于物理和几何约束的额外信息,这些约束决定了蛋白质如何折叠。他们还给它设置了一个更困难的任务:网络不是预测氨基酸之间的关系,而是预测目标蛋白质序列的最终结构。“这是一个复杂得多的系统,”Jumper 说。

惊人的准确性

CASP 持续数月。目标蛋白质或称为结构域的蛋白质部分(总共约 100 个)定期发布,团队有几周的时间提交其结构预测。然后,一个由独立科学家组成的团队使用衡量预测蛋白质与实验确定的结构有多相似的指标来评估预测。评估人员不知道是谁在进行预测。

Lupas 说,AlphaFold 的预测以“group 427”的名义到达,但其许多条目的惊人准确性使其脱颖而出。“我猜是 AlphaFold。大多数人都是,”他说。

有些预测比其他预测更好,但近三分之二的预测质量可与实验结构相媲美。Moult 说,在某些情况下,尚不清楚 AlphaFold 的预测与实验结果之间的差异是预测错误还是实验的人为因素。

Moult 说,AlphaFold 的预测与通过称为核磁共振波谱的技术确定的实验结构不太匹配,但这可能是由于原始数据如何转换为模型造成的。该网络也很难对蛋白质复合物或基团中的单个结构进行建模,在这些复合物或基团中,与其他蛋白质的相互作用会扭曲它们的形状。

Moult 说,总的来说,与上届 CASP 相比,今年团队预测的结构更准确,但大部分进展可归功于 AlphaFold。Moult 说,在被认为中等难度的蛋白质靶标上,其他团队的最佳表现通常在 100 分制的预测准确度量表上得分为 75 分,而 AlphaFold 在相同的靶标上得分约为 90 分。

Moult 说,大约一半的团队在总结他们方法的摘要中提到了“深度学习”,这表明 AI 正在对该领域产生广泛的影响。其中大多数来自学术团队,但微软和中国科技公司腾讯也参加了 CASP14。

哥伦比亚大学在纽约市的计算生物学家兼 CASP 参与者 Mohammed AlQuraishi 渴望深入了解 AlphaFold 在比赛中的表现细节,并了解 DeepMind 团队于 12 月 1 日展示其方法时系统的工作原理。他说,有可能——但不太可能——比平时更容易的一批蛋白质靶标促成了这一表现。AlQuraishi 强烈预感 AlphaFold 将具有变革意义。

“我认为可以公平地说,这将对蛋白质结构预测领域产生很大的颠覆性影响。我怀疑很多人会离开这个领域,因为核心问题可以说已经解决了,”他说。“这是一项一流的突破,当然是我一生中最重大的科学成果之一。”

更快的结构

AlphaFold 的预测帮助确定了 Lupas 实验室多年来一直试图破解的一种细菌蛋白质的结构。Lupas 的团队之前收集了原始 X 射线衍射数据,但将这些类似罗夏墨迹的图案转化为结构需要一些关于蛋白质形状的信息。获取此信息的技巧以及其他预测工具均已失败。“来自 group 427 的模型在半小时内为我们提供了结构,而此前我们已经花费了十年时间尝试一切方法,”Lupas 说。

DeepMind 的联合创始人兼首席执行官 Demis Hassabis 表示,该公司计划使 AlphaFold 发挥作用,以便其他科学家可以使用它。(该公司此前发布了关于 AlphaFold 第一个版本的足够细节,供其他科学家复制该方法。)AlphaFold 可能需要几天时间才能提出预测结构,其中包括对蛋白质不同区域可靠性的估计。“我们才刚刚开始了解生物学家想要什么,”Hassabis 补充道,他认为药物发现和蛋白质设计是潜在的应用。

2020 年初,该公司发布了少量尚未通过实验确定的 SARS-CoV-2 蛋白质结构的预测。加州大学伯克利分校的分子神经生物学家 Stephen Brohawn 说,DeepMind 对一种名为 Orf3a 的蛋白质的预测最终与后来通过冷冻电镜确定的结构非常相似,他的团队于 6 月发布了该结构。“他们所做的事情非常令人印象深刻,”他补充道。

现实世界的影响

AlphaFold 不太可能关闭像 Brohawn 的实验室这样使用实验方法来解决蛋白质结构的实验室。但这可能意味着,获得良好的结构只需要质量较低且更容易收集的实验数据。蛋白质进化分析等一些应用有望蓬勃发展,因为现在可用的海量基因组数据可能被可靠地转化为结构。“这将使新一代分子生物学家能够提出更高级的问题,”Lupas 说。“这将需要更多的思考和更少的移液。”

“这是一个我开始认为在我有生之年都无法解决的问题,”英国欣克斯顿欧洲分子生物学实验室-欧洲生物信息学研究所的结构生物学家兼前 CASP 评估员 Janet Thornton 说。她希望这种方法能够帮助阐明人类基因组中数千种未解决蛋白质的功能,并理解人与人之间不同的致病基因变异。

AlphaFold 的表现也标志着 DeepMind 的一个转折点。该公司最出名的是利用 AI 掌握围棋等游戏,但其长期目标是开发能够实现广泛的、类似人类智能的程序。Hassabis 说,解决蛋白质结构预测等宏大的科学挑战是其 AI 可以实现的最重要的应用之一。“我确实认为这是我们所做的最重要的事情,就现实世界的影响而言。”

本文经许可转载,并于 2020 年 11 月 30 日首次发表

© . All rights reserved.