生物学中有一句古老的格言:结构决定功能。为了理解在健康身体中执行重要工作或在患病身体中功能失调的无数蛋白质的功能,科学家们必须首先确定这些蛋白质的分子结构。但这绝非易事:蛋白质分子由长而弯曲的链组成,这些链最多可达数千个氨基酸,这些化合物可以以多种方式相互作用,从而呈现出大量的可能三维形状。弄清楚单个蛋白质的结构,或解决“蛋白质折叠问题”,可能需要数年精细的实验。
但去年,Alphabet 旗下的 DeepMind 公司开发的人工智能程序 AlphaFold 预测了 几乎每个已知蛋白质(总共约 2 亿个)的 3-D 结构。DeepMind 首席执行官 Demis Hassabis 和高级 staff 研究科学家 John Jumper 因这项成就共同获得了今年的 300 万美元 生命科学突破奖,这为从扩展我们对基本分子生物学的理解到加速药物开发等应用打开了大门。
DeepMind 在其 AlphaGo AI 在 2016 年因击败世界围棋冠军李世石而成为头条新闻后不久开发了 AlphaFold。但 Hassabis 说,目标始终是开发能够解决科学领域重要问题的人工智能。DeepMind 已将其几乎所有氨基酸序列已知的物种的蛋白质结构免费发布在公共数据库中。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
大众科学 与 Hassabis 谈论了 AlphaFold 的开发、其一些最令人兴奋的潜在应用以及高度复杂人工智能的伦理考量。
[以下是采访的编辑稿。]
您为什么决定创建 Alpha-Fold,以及您是如何达到现在它可以折叠几乎所有已知蛋白质的地步的?
我们几乎是在从首尔的 AlphaGo 比赛回来后的第二天开始这个项目的,在那场比赛中,我们击败了世界 [围棋] 冠军李世石。我当时正在和 AlphaGo 的项目负责人 Dave Silver 讨论“DeepMind 接下来应该做的重大项目是什么?” 我觉得是时候解决科学领域真正困难的事情了,因为我们刚刚或多或少地解决了游戏人工智能的巅峰。我最终想将人工智能应用于现实世界的领域。这始终是 DeepMind 的使命:开发可以应用于许多、许多问题的通用算法。我们从游戏开始,因为在游戏中开发人工智能和测试各种事物效率更高,原因有很多。但最终,这从来都不是最终目标。最终目标是开发像 AlphaFold 这样的东西。
这是一个庞大的项目——在 CASP14 [第 14 届蛋白质结构预测关键评估竞赛] 之前大约有五六年时间的工作。我们在 CASP13 竞赛中推出了早期版本,那是 AlphaFold 1。那是最先进的技术,你知道,比以前任何人做得都好得多,我认为这是机器学习首次被用作系统核心组件来尝试解决这个问题。这给了我们信心,可以进一步推进它。我们不得不为 AlphaFold 2 重新设计,并在其中加入大量新想法,还将一些更专业的专家——生物学家、化学家和生物物理学家,他们从事蛋白质折叠工作——纳入团队,并将他们与我们的工程和机器学习团队结合起来。
我一生都在研究和思考通用人工智能,甚至可以追溯到大学时代。我倾向于记下我认为有一天可以适用于我们构建的算法类型的科学问题,而蛋白质折叠对我来说一直位居前列,自 20 世纪 90 年代以来一直如此。我有很多生物学家朋友,他们过去总是对我滔滔不绝地谈论这件事。
您对 AlphaFold 如此成功感到惊讶吗?
是的,实际上,这令人惊讶。这绝对是我们做过的最困难的事情,而且我还要说这是我们构建过的最复杂的系统。《自然》杂志上描述所有方法的论文,连同补充信息和技术细节,长达 60 页。有 32 种不同的组件算法,每一种都是必需的。这是一个非常复杂的架构,需要大量的创新。这就是为什么它花了这么长时间。重要的是要从不同的背景和学科获得所有这些不同的输入。我认为我们在 DeepMind 做得非常出色的一件事是将它们混合在一起——不仅仅是机器学习和工程。
但是在 AlphaFold 1 之后,有一段困难时期。我们首先尝试将 AlphaFold 1 推向极限。在 CASP13 之后大约六个月,我们意识到它不会达到我们想要的原子精度,从而真正解决问题并对实验学家和生物学家有用。所以我做出了决定,我们需要回到绘图板,并利用我们获得的知识,包括它在哪里起作用以及在哪里不起作用,然后看看我们是否可以带着这种经验和知识回到几乎是头脑风暴的阶段,并提出一大堆新想法和新架构。我们这样做了,最终奏效了。
但在那次重置后的大约六个月到一年里,情况变得更糟,而不是更好。早期的 AlphaFold 2 系统比 AlphaFold 1 差得多。在您似乎在准确性方面倒退的时期,这可能非常可怕。幸运的是,这就是我们在游戏和我们之前构建的所有其他人工智能系统中的经验发挥作用的地方。我见过我们经历死亡之谷,然后走出另一边。
您能否用非常简单的语言解释一下 AlphaFold 的工作原理?
这是一件非常复杂的事情。而且我们有很多事情都不确定。很明显,AlphaFold 2 正在学习一些关于化学和物理结构的隐含知识。它有点知道哪些事情可能是合理的。它是通过查看我们已知的真实蛋白质结构来学习的。但我们拥有的创新之一是做一种叫做自蒸馏的东西,即让早期版本的 AlphaFold 2 预测大量结构——并预测这些预测的置信水平。
我们内置的功能之一是对化学键角以及进化历史的理解,使用一种称为多序列比对的过程。这些带来了一些约束,有助于缩小可能的蛋白质结构的搜索空间。搜索空间太大了,无法通过蛮力解决。但显然现实世界的物理学以某种方式解决了这个问题,因为蛋白质在纳秒或毫秒内折叠起来。实际上,我们正在尝试通过从输出示例中学习来逆向工程该过程。我认为 AlphaFold 已经捕捉到了一些关于分子物理学和化学的非常深刻的东西。
人工智能最令人着迷的地方在于它有点像一个黑匣子。但最终,它似乎正在学习关于自然世界的实际规则。
是的,它几乎是在直觉意义上学习它。我认为我们将有越来越多的研究人员关注 AlphaFold 不擅长预测的蛋白质区域,并询问:“当蛋白质没有清晰的形状,当它不与任何东西相互作用时,它们在生物学中实际上是否是无序的?” 据认为,[来自具有细胞核的生物的] 蛋白质中约有 30% 是无序的。许多此类蛋白质与疾病有关,例如神经退行性疾病,因为它们可能会缠结。你可以看到它们是如何做到这一点的,因为它们只是有点像软塌塌的绳子,而不是形成结构。
我们使用 AlphaFold 2 做的另一件极其重要的事情是,我们没有在机器学习系统中使用置信度度量来输出每个氨基酸,因为我们希望生物学家能够知道他们可以依赖预测的哪些部分,而无需了解任何关于机器学习的知识。
AlphaFold 最令人兴奋的应用有哪些?
我们有很多来自合作伙伴(早期采用者)的优秀案例研究,他们有一年的时间与 AlphaFold 合作。他们正在做非常多样化的事情,从解决抗生素耐药性到通过设计食用塑料的酶来解决塑料污染问题。我一直在与 [CRISPR 基因编辑先驱] Jennifer Doudna 讨论苜蓿作物可持续性——她的团队正在尝试改造作物,使其在面对气候变化时更具可持续性。
还有很多非常酷的基础研究正在使用它进行。《科学》杂志有一个完整的特刊,介绍科学家如何解决核孔复合体的结构。真核细胞核中这种跨膜蛋白群是体内最大的蛋白质之一。有几个小组同时从冷冻电镜 [低温电子显微镜] 数据中解决了这个问题——但他们都需要 AlphaFold 预测来在某些地方增强这些数据。因此,实验结构数据与 AlphaFold 的结合被证明是结构生物学家的福音,这是我们不一定预测到的。
然后在实际应用方面,我们交谈过的几乎每家制药公司都在使用 AlphaFold。我们可能永远不会知道全部影响是什么,因为显然他们对此保密。但我认为我们已经帮助将药物开发和疾病治愈加速了几年。
围绕人工智能及其可以做的一切,尤其是在科学和医学领域,已经有很多炒作。但 AlphaFold 似乎具有明显的优势。
我的意思是,这由您来决定。但我想说,很多人告诉我,这是人工智能在科学领域做事的最具体、最有用的案例。我喜欢我们正在兑现人工智能的承诺这一事实。我的意思是,你可以说“炒作”,但我们尽量让我们的工作为自己说话。
我记得当我们在 2010 年开始时,没有人从事人工智能研究。12 年后,似乎每个人都在谈论它。在大多数情况下,正如我相信您必须一直筛选的那样,就像他们有时甚至不知道人工智能是什么,或者他们滥用这个术语,或者正在发生的事情并没有那么令人印象深刻。但我认为 AlphaFold 是一个非常好的概念验证或榜样,说明可能会发生什么。我认为在未来十年中,我们将看到更多这样的情况——人工智能帮助真正加速一些科学突破——我们希望成为其中更多的一部分。我们认为这仅仅是开始。
最近,人工智能经常出现在新闻中,无论是关于生成智能语言还是创作数字艺术。随着人工智能在我们生活中变得越来越重要,我们应该如何思考它的后果?
我们在 DeepMind 拥有我们自己的大型语言模型和文本到图像系统的内部版本,我们可能会在 [2023 年] 的某个时候发布其中一些。看到发展的爆发式增长真的很有趣。显然,AlphaFold 在科学界非常重要。但是,对于语言和图像人工智能,它开始突破到主流。当然,每个人都了解语言并可以欣赏图像——您不必具备任何科学专业知识。
但我认为我们应该始终考虑伦理问题,这也是我们尚未发布我们基于语言的人工智能的原因之一。我们正在努力负责任地真正检查这些模型可以做什么——它们如何失控,如果它们有毒会发生什么,所有这些当前最重要的事情。我们认为,其中一些系统尚未准备好向公众发布,至少不是不受限制地发布。但在某个时候,这种情况会发生。我们在 DeepMind 有一个短语“负责任地开拓”。对我来说,这是关于应用科学方法来分析和构建这些系统。我认为通常,尤其是在硅谷,存在一种黑客心态,即“我们将破解它并将其发布出去,然后看看会发生什么。” 我认为对于像人工智能这样具有影响力和潜在强大功能的技术来说,这绝对是错误的方法。
我一生都在研究人工智能,因为我认为它将成为人类有史以来最有益的事情,例如治愈疾病、帮助应对气候变化以及所有这些事情。但它是一种双重用途技术:这取决于我们作为一个社会如何决定部署它——以及我们将其用于什么。
我认为我们正在社交媒体上看到它的后果。
人工智能如何在社交媒体中被使用——或被滥用?
这不是真正的人工智能;它更像是统计算法。但我们已经看到了对民主的意外后果。可能创建社交媒体平台的人们在开始时并没有恶意;只是有点失控了。但我们希望确保我们尽早考虑这些连锁反应,而不是在“哦,糟糕,这发生了”之后,才试图在马走后关上谷仓的门。我们不应该对强大的技术这样做。我们可以从 CRISPR 和其他技术中获得一些启发和建议。我认为我们可以从其他科学界已经解决这些问题的经验中学习一些东西。