机器学习(ML)和其他基于人工智能的计算工具已证明其在预测真实世界蛋白质结构方面的能力。AlphaFold 2,是由DeepMind的科学家开发的算法,可以仅根据氨基酸序列自信地预测蛋白质结构,自2021年7月推出以来,几乎已成为家喻户晓的名字。如今,AlphaFold 2已被许多结构生物学家常规使用,预测的结构已超过2亿个。
这个机器学习工具箱似乎也能够生成定制蛋白质,包括那些在自然界中不存在功能的蛋白质。这是一个很有吸引力的前景,因为尽管天然蛋白质具有巨大的分子多样性,但进化从未被迫解决许多生物医学和工业问题。
科学家们现在正迅速迈向一个未来,在这个未来中,他们可以应用仔细的计算分析来推断控制真实世界蛋白质结构和功能的潜在原理,并将这些原理应用于构建具有用户设计功能的定制蛋白质。Cyrus Biotechnology的首席执行官兼联合创始人Lucas Nivon认为,这种计算机设计的蛋白质的最终影响将是巨大的,并将该领域比作20世纪80年代新兴的生物技术产业。“我认为在30年后,30%、40%或50%的药物将是计算机设计的蛋白质,”他说。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
迄今为止,在蛋白质设计领域运营的公司主要侧重于改造现有蛋白质以执行新任务或增强特定属性,而不是真正的从头设计。例如,Generate Biomedicines的科学家们利用关于SARS-CoV-2刺突蛋白及其与受体蛋白ACE2相互作用的现有知识,设计出一种合成蛋白质,该蛋白质可以持续阻断多种变异体的病毒进入。“在我们内部测试中,这种分子对我们迄今为止看到的所有变异体都具有相当的抵抗力,”联合创始人兼首席技术官Gevorg Grigoryan说,并补充说Generate的目标是在今年第二季度向FDA申请批准进行临床试验。更雄心勃勃的计划正在酝酿之中,尽管从头设计(即完全从零开始构建新蛋白质)的飞跃何时到来仍有待观察。
人工智能辅助蛋白质设计领域正在蓬勃发展,但该领域的根源可以追溯到二十多年前,由像David Baker这样的学术研究人员以及华盛顿大学蛋白质设计研究所的同事们开展的工作。从20世纪90年代末开始,Baker(他共同创立了包括Cyrus、Monod和Arzeda在内的多家公司)负责监督Rosetta的开发,Rosetta是一个用于预测和操纵蛋白质结构的基础软件套件。
从那时起,Baker和其他研究人员开发了许多其他强大的蛋白质设计工具,这些工具得益于机器学习算法的快速进步,特别是深度学习这种机器学习子技术的进步。例如,今年9月,Baker的团队发布了他们的深度学习ProteinMPNN平台,该平台允许他们输入想要的结构,并让算法输出可能产生该从头结构的氨基酸序列,成功率超过50%。
深度学习领域最令人兴奋的事情之一是生成模型,它可以创造全新的、自然界前所未见的蛋白质。这些建模工具与用于在Stable Diffusion或DALL-E 2等程序中生成怪异而引人注目的AI生成艺术作品以及在chatGPT等程序中生成文本的算法属于同一类别。在这些情况下,该软件在大量带注释的图像数据上进行训练,然后利用这些见解生成新的图片以响应用户查询。蛋白质序列和结构也可以实现同样的壮举,算法利用丰富的真实世界生物信息库,根据在自然界中观察到的模式和原理来构想新的蛋白质。然而,为了做到这一点,研究人员还需要为计算机提供关于生物化学和物理约束的指导,这些约束会影响蛋白质设计,否则,结果输出将只提供艺术价值。
理解蛋白质序列和结构的一种有效策略是将它们视为“文本”,使用遵循生物“语法”和“句法”规则的语言建模算法。“为了生成流畅的句子或文档,算法需要学习不同类型单词之间的关系,但它还需要学习关于世界的知识,以使文档具有凝聚力并有意义,”前Salesforce Research的计算机科学家Ali Madani说,他最近创立了Profluent。
在最近发表的一篇文章中,Madani和同事描述了一种语言建模算法,该算法可以产生新型计算机设计的蛋白质,这些蛋白质可以在实验室中成功生产,其催化活性与天然酶相当。Arzeda的联合创始人兼首席执行官Alexandre Zanghellini表示,语言建模也是Arzeda工具箱的关键组成部分。在一个项目中,该公司使用了多轮算法设计和优化,以工程化一种具有改进的抗降解稳定性的酶。“在三轮迭代中,我们能够将蛋白质在四周后完全消失的情况转变为有效保留95%的活性,”他说。
Generate研究人员最近发布的一篇预印本描述了一种新的基于生成建模的设计算法,名为Chroma,其中包括几个提高其性能和成功率的功能。这些功能包括扩散模型,这是一种在许多图像生成AI工具中使用的方法,可以更轻松地处理复杂的多维数据。Chroma还采用算法技术来评估蛋白质氨基酸链(称为骨架)上相距遥远但可能对正确折叠和功能至关重要的残基之间的长程相互作用。在一系列初步演示中,Generate团队表明,他们可以获得预测会折叠成各种天然存在和任意选择的结构和亚结构域(包括字母表的字母形状)的序列,尽管有多少序列将在实验室中形成这些折叠仍有待观察。
除了新算法的强大功能外,生物学家捕获的大量结构数据也使蛋白质设计领域得以腾飞。蛋白质数据库是蛋白质设计人员的关键资源,现在包含超过20万个实验解析的结构。AlphaFold 2算法也被证明是这里的游戏规则改变者,因为它为设计算法提供了训练材料和指导。“它们是模型,所以你必须有所保留地看待它们,但现在你拥有了如此庞大的预测结构,你可以以此为基础进行构建,”Zanghellini说,他表示该工具是Arzeda计算设计工作流程的核心组成部分。
对于人工智能引导的设计,更多的训练数据总是更好。但是,现有的基因和蛋白质数据库受到物种范围有限以及对人类和常用模式生物的严重偏见的限制。Basecamp Research正在构建一个超多样化的生物信息库,这些信息来自在17个国家的生物群落中采集的样本,范围从南极洲到雨林再到海底热液喷口。首席技术官Philipp Lorenz表示,一旦对这些标本的基因组数据进行分析和注释,他们就可以组装一个知识图谱,该图谱可以揭示不同蛋白质和途径之间的功能关系,而这些关系仅基于基于序列的分析是不明显的。“这不仅仅是生成一种新蛋白质,”Lorenz说。“我们正在原核生物中发现蛋白质家族,而这些蛋白质家族以前被认为只存在于真核生物中。”[原核生物,如细菌等单细胞生物,缺乏真核生物中更复杂的内部细胞结构,真核生物能够成为多细胞生物。]
这意味着人工智能引导的蛋白质设计工作有更多的起点,Lorenz表示,他团队自己的设计实验在生产功能性蛋白质方面取得了80%的成功率。
但是蛋白质并非在真空中发挥作用。Hummingbird Ventures的投资人Tess van Stekelenburg指出,Basecamp是该公司资助的公司之一,它捕获了其识别的蛋白质的所有类型的环境和生物化学背景。伴随每个蛋白质序列的“元数据”可以帮助指导蛋白质的工程设计,使蛋白质在特定条件下最佳表达和发挥功能。“如果你计划研究pH值、温度或压力等因素,它会让你有更多的能力进行约束,”她说。
一些公司也在寻求用自己的数据来扩充公共结构生物学资源。Generate正在建设一个多仪器冷冻电子显微镜设施,这将使他们能够以相对较高的通量生成接近原子分辨率的结构。与来自公共可用资源的数据相比,这种内部生成的结构数据更可能包含关于单个蛋白质的相关元数据。
内部湿实验室设施是设计过程的另一个关键组成部分,因为实验结果反过来又用于训练算法,以便在未来的轮次中取得更好的结果。Grigoryan指出,尽管Generate喜欢突出其算法工具箱,但其大部分员工由实验人员组成。
洛桑联邦理工学院的计算生物学家Bruno Correia表示,蛋白质设计工作的成功取决于算法专家和经验丰富的湿实验室从业人员之间的密切协商。“蛋白质分子的结构以及它们在实验中的行为方式构建了很多约束条件,”Correia说。“我认为将生物实体仅仅作为数据来处理是一个错误。”
van Stekelenburg表示,生物学验证是该领域投资者极其重要的考虑因素。“如果你正在进行从头设计,真正的黄金标准不是你使用的架构,而是你设计的蛋白质中有多少百分比具有最终期望的属性,”她说。“如果你不能证明这一点,那就没有意义。”因此,大多数从事计算设计的公司仍然专注于调整蛋白质功能,而不是彻底改造它,从而缩短预测和性能之间的差距。
Nivon说,Cyrus通常与在特定参数方面不足的现有药物和蛋白质合作。“这可能是一种需要更好疗效、更低免疫原性或更好毒性特征的药物,”他说。对于Cradle来说,主要目标是通过优化稳定性等特性来改善蛋白质疗法。“我们已经根据经验研究对我们的模型进行了基准测试,以便人们可以了解这在实验环境中可能有多好,”创始人兼首席执行官Stef van Grieken说。
Arzeda的重点是用于工业应用的酶工程。他们已经成功创造出具有新型催化功能的蛋白质,用于农业、材料和食品科学。这些项目通常从自然界中催化的相对成熟的核心反应开始。但是,为了使这些反应适应不同的底物,“你需要大幅改造活性位点,”Zanghellini说。该公司的一些项目包括一种可以分解广泛使用的除草剂的植物酶,以及可以将相对低价值的植物副产品转化为有用的天然甜味剂的酶。
Generate的第一代工程项目侧重于优化。在一项已发表的研究中,该公司科学家表明,他们可以“重塑”来自大肠杆菌的氨基酸代谢酶l-天冬酰胺酶的表面,改变其外部的氨基酸组成,以大大降低其免疫原性。但是,Grigoryan表示,借助新的Chroma算法,Generate已准备好开始更雄心勃勃的项目,在该项目中,算法可以开始构建具有用户指定的结构和功能特征的真正从头设计。当然,Chroma的设计方案随后必须通过实验测试进行验证,尽管Grigoryan说“我们对我们所看到的感到非常鼓舞。”
Zanghellini认为该领域即将迎来拐点。“我们开始看到真正创造一个复杂的活性位点,然后在它周围构建蛋白质的可能性,”他说。但他补充说,还有更多的挑战在等待着我们。例如,具有优异催化特性的蛋白质可能非常难以大规模生产,或者作为药物表现出较差的特性。然而,在未来,下一代算法应该能够生成从头设计的蛋白质,这些蛋白质经过优化,可以满足科学家愿望清单上的许多要求,而不仅仅是一个。
本文经许可转载,并于2023年2月23日首次发表。