有许多原因导致有前景的药物在药物开发过程中被淘汰,其中之一是细胞色素P450。CYP450是一组主要在肝脏中产生的酶,通常被称为CYP450,它参与分解化学物质并防止它们在血液中积累到危险水平。事实证明,许多实验性药物会抑制CYP450的产生——这是一个令人烦恼的副作用,可能使这种药物对人体有毒。
长期以来,制药公司一直依赖传统工具来预测候选药物是否会抑制患者体内的CYP450,例如在试管中进行化学分析,观察CYP450与化学性质相似、了解更充分的药物之间的相互作用,以及对小鼠进行测试。但他们的预测大约有三分之一的时间是错误的。在这些情况下,与CYP450相关的毒性可能只在人体试验期间才会被发现,导致数百万美元和多年的努力付诸东流。这种代价高昂的不准确性有时会让人感觉像是“我们存在的祸根”,百时美施贵宝公司研发和转化医学高级副总裁 Saurabh Saha 说道。
诸如此类的低效率导致了一个更大的问题:价值 1 万亿美元的全球制药行业至少二十年来一直处于药物开发和生产力下滑的状态。制药公司投入的资金越来越多——10 大制药公司现在每年支付近 800 亿美元——但成功研发的药物却越来越少。十年前,研发方面的每一美元投资都能获得 10 美分的回报;而今天,回报率不到 2 美分。部分原因是,最容易找到、能够安全有效地治疗常见疾病的药物都已被发现;剩下的工作是寻找能够解决复杂且难以捉摸的问题的药物,以及治疗仅影响极小部分人口的疾病的药物——因此可能获得的回报要少得多。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
由于寻找新的、成功的药物变得如此困难,根据塔夫茨药物开发研究中心的数据,2003 年至 2013 年间,将一种药物推向市场的平均成本几乎翻了一番,达到 26 亿美元。同样的挑战也使从实验室到市场的时间线延长至 12 年,90% 的药物在人体试验的某个阶段被淘汰。
因此,难怪制药行业对用于药物开发的人工智能工具充满热情。这些工具的工作原理不是将专家开发的分析技术编程到其中;而是用户向其输入样本问题(分子)和解决方案(分子最终作为药物的行为方式),以便软件可以开发自己的计算方法来生成相同的解决方案。
大多数基于人工智能的药物发现应用都采用一种称为机器学习的技术形式,包括一种称为深度学习的方法子集。大多数机器学习程序可以处理组织和标记的小型数据集,而深度学习程序可以处理原始的非结构化数据,并且需要更大的数据量。因此,一个机器学习程序在被展示数万张细胞照片(其中各个部分已被标记)的示例后,可能会学会识别细胞的不同特征。深度学习版本可以从未标记的细胞图像中自行找出这些部分,但它可能需要查看数百万张才能做到这一点。
该领域的许多科学家认为,人工智能最终将通过以下几种方式改进药物开发:识别更有希望的候选药物;提高“命中率”,即通过临床试验并获得监管部门批准的候选药物的百分比;以及加快整个过程。例如,百时美施贵宝公司最近部署的一个机器学习程序经过训练,可以找到与 CYP450 抑制相关的数据模式。Saha 说,该程序将其 CYP450 预测的准确率提高到 95%——与传统方法相比,失败率降低了六倍。这些结果有助于研究人员快速筛选出潜在的有毒药物,而将精力集中在更有可能通过多次人体试验并获得美国食品和药物管理局批准的候选药物上。“人工智能可以发挥巨大作用的地方在于,让药物在早期就失败,在我们对它们进行所有投资之前,”礼来公司首席数据和分析官 Vipin Gopal 说道。
现在,资源正涌入该领域。基于人工智能的药物发现初创公司在 2018 年筹集了超过 10 亿美元的资金,截至去年 9 月,它们有望在 2019 年筹集 15 亿美元。每一家主要的制药公司都宣布与至少一家这样的公司建立了合作伙伴关系。然而,实际上只有少数人工智能发现的药物正在人体测试管道中,并且没有一种药物开始进行 3 期人体试验,这是实验性药物的黄金标准测试。Saha 承认,还需要几年时间他才能确定该公司的命中率是否会因人工智能预测 CYP450 抑制率而提高。尽管行业内大肆宣传,但早期结果是否会转化为更多更好的药物还远未确定。

图片来源:坎贝尔医学插画
筛选数百万个分子
新兴的人工智能程序并非药物行业的革命性更新,该行业长期以来一直在构建复杂的分析解决方案来辅助药物开发。十多年前,随着生物信息学领域的发展——即寻求使用计算工具从大量数据中获得生物学见解——强大的统计和生物物理建模程序的兴起,催生了可以预测分子特性的工具。但这些程序受到了科学家对分子相互作用的不完全理解的限制:当科学家不知道数据中的哪些要素最重要以及它们如何相互关联时,它们无法告诉传统软件如何在数据中找到见解。由于具有推导出自身对哪些数据要素重要的见解的能力,较新的 AI 程序可以为更广泛的变量提取更好的预测。
人工智能工具通过多种方式解决药物发现的不同方面。例如,一些人工智能公司专注于设计一种能够安全有效地作用于已知靶点的药物——通常是一种特定的、经过充分研究的、与疾病相关的蛋白质。目标通常是提出一种分子,该分子可以化学结合到靶蛋白并对其进行修饰,使其不再导致疾病或其症状。加拿大公司 Cyclica 将其软件用于将数百万个分子的生物物理结构和生化特性与约 15 万个蛋白质的结构和特性进行匹配,以发现可能与靶蛋白结合的分子,以及需要避免的分子。
但作为药物的良好候选分子仍然必须跳过其他障碍。这些障碍包括:穿过肠道进入血液,而不会立即被肝脏或代谢过程分解;在特定器官(如肾脏)中发挥作用,而不会扰乱其他器官;避免与人体内数千种对健康重要的其他蛋白质结合并使其失活;以及在药物水平变得可能危险之前分解并离开人体。Cyclica 的人工智能软件考虑了所有这些要求。“一种可以与蛋白质靶点相互作用的分子通常可以与多达 300 种蛋白质相互作用,”Cyclica 首席执行官 Naheed Kurji 说。“如果您正在设计一种分子,您有必要考虑其他 299 种可能对人体产生灾难性影响的相互作用。”
生物医学研究人员越来越认识到,癌症和阿尔茨海默病等复杂疾病涉及数百种蛋白质,仅针对其中一种蛋白质不太可能产生足够的破坏性。Kurji 解释说,Cyclica 正在尝试寻找可以与数十种靶蛋白相互作用,但避免与数百种其他蛋白质相互作用的单个化合物。他补充说,目前正在开发的是将大量关于蛋白质变异的匿名全球基因数据纳入其中,以便该软件可以指定候选药物最适合哪些患者。Kurji 声称,这些功能加在一起最终将能够将候选药物从初步识别到人体试验的典型七年时间框架缩短五年。
默克和拜耳是已宣布与 Cyclica 建立合作伙伴关系的大型制药公司之一。与大多数人工智能制药合作伙伴关系一样,这些公司并未过多透露人工智能生成的候选药物可能从这些合作中产生的信息。但 Cyclica 分享了其在识别与已获得 FDA 批准的用于治疗系统性硬皮病(一种皮肤和其他器官的自身免疫性疾病)的药物相关的关键靶蛋白,以及与埃博拉病毒相关的靶蛋白方面的成功案例的一些细节。每种药物都已获得 FDA 批准用于治疗其他疾病——分别为 HIV 和抑郁症——这意味着如果研究继续取得进展,它们都可以快速“重新用于”新的应用。
有时,研究人员会识别出可能在疾病中发挥关键作用的靶蛋白,但发现——正如人体内约 90% 的蛋白质一样——对其结构和特性知之甚少。由于可用的数据很少,大多数机器学习和深度学习程序将无法弄清楚如何“药物化”该蛋白质——即,提出将与其结合并满足安全性和有效性其他标准的化合物。少数人工智能公司正在专注于这些“小数据”问题,其中包括 Exscientia,该公司使用其软件来寻找可能与靶蛋白协同作用的分子。该公司首席执行官、苏格兰邓迪大学药物信息学教授 Andrew Hopkins 表示,它可以使用关于蛋白质的 10 条数据就产生有用的见解。
Exscientia 的算法将关于靶蛋白的有限信息与约 10 亿蛋白质相互作用的数据库进行比较。此步骤缩小了可能有效的化合物列表,并指定了哪些额外数据将有助于进一步缩小范围。例如,此类数据可能来自查看组织样本,以了解有关蛋白质在体内行为的更多信息。然后将生成的新数据输入到软件中,软件再次精简列表并建议另一轮所需数据。重复此过程,直到软件准备好生成一份可管理的化合物列表,这些化合物是该靶点的有利候选药物。
Hopkins 声称,Exscientia 的流程可以将发现时间从 4.5 年缩短到仅 1 年,将发现成本降低 80%,并将合成化合物的数量减少到通常生产一种成功的药物所需数量的五分之一。Exscientia 正在与生物技术巨头 Celgene 合作,努力寻找针对三个靶点的新潜在药物。
与此同时,Exscientia 与葛兰素史克公司的合作已产生了一种有希望的分子,该分子靶向治疗慢性阻塞性肺病的新途径。但与任何解决药物开发问题的人工智能公司一样,Exscientia 进入该领域的时间还不够长,无法产生足够多的新候选药物,使其能够进入后期试验——这个过程通常需要五到八年。Hopkins 声称,Exscientia 识别出的候选药物之一最早可能在今年进入人体试验。“归根结底,我们将根据我们交付的药物来评判,”他说。
对新靶点的需求
寻找与新靶点结合的分子并非药物发现中唯一的主要挑战。首先还需要识别靶点。为了发现可能在疾病中发挥作用的蛋白质,生物制药公司 Berg 将人工智能应用于筛选从人体组织样本中提取的信息。Berg 首席执行官 Niven R. Narain 表示,这种方法旨在解决困扰大多数药物靶点研究的两个问题:这些研究往往基于研究人员的理论或猜测,这可能会使结果产生偏差并过度限制候选药物的范围,而且它们经常发现与疾病相关的靶点,但最终并未被证实是致病因素,这意味着药物化它们将无济于事。
Berg 的方法包括插入可以从患者的组织样本、器官液体和血液检查中提取的每一条数据。这些提取的数据包括基因组学、蛋白质组学、代谢组学、脂质组学等等——在寻找靶点时,这是一个异常广泛的考虑范围。样本取自患有和未患有特定疾病的人,以及处于疾病进展不同阶段的人。来自样本的活细胞在实验室中暴露于各种化合物和条件,例如低氧水平或高葡萄糖水平。这种方法产生的数据涉及从细胞产生能量的能力到其膜的刚度等相应的变化。
然后,所有数据都通过一组深度学习程序运行,这些程序搜索非疾病状态和疾病状态之间的任何差异,目的是最终关注那些其存在似乎对疾病有影响的蛋白质。在某些情况下,这些蛋白质成为靶点的候选者,此时 Berg 的软件可以开始搜索药物化这些靶点的化合物。此外,由于该软件可以辨别出靶点似乎仅在部分患者中引起疾病健康,因此它可以寻找这些患者的区分特征,例如某些基因。这为精准医疗方法铺平了道路,这意味着患者可以在服用药物之前进行测试,以确定该药物是否可能对其有效。
Berg 的工作中最令人兴奋的药物——也可能是迄今为止从任何与药物发现相关的人工智能工作中涌现出的最令人兴奋的药物——是一种名为 BPM31510 的抗癌药物。它最近完成了一项针对晚期胰腺癌患者的 2 期试验,胰腺癌是一种极具侵袭性且难以治疗的癌症。1 期试验通常不会过多地表明药物的潜力,除了它在给定剂量下是否具有危险的毒性,但 BPM31510 针对其他癌症的 1 期试验在一定程度上验证了 Berg 软件预测大约 20% 可能对其产生反应的患者以及更有可能经历不良反应的患者的能力。
此外,来自试验的组织样本分析使 Berg 的软件反直觉地预测,该药物对更具侵袭性的癌症效果最佳,因为它攻击的是在这些癌症中发挥更大作用的机制。如果该药物获得批准,Berg 可能会对服用该药物的患者进行上市后分析(可能每 100 名患者中抽取一名),“以便我们可以不断改进其使用方式,”Narain 说。
Berg 正在与制药巨头阿斯利康公司合作,寻求帕金森病和其他神经系统疾病的靶点,并与赛诺菲巴斯德公司合作,以寻求改进的流感疫苗。它还在与美国退伍军人事务部和克利夫兰诊所合作,寻找前列腺癌的靶点。该软件已经确定了诊断测试的机制,这些机制可以区分前列腺癌和良性前列腺增生,而目前通常很难在不进行手术的情况下做到这一点。
超越炒作
大型制药公司对将这些人工智能努力注入药物发现的兴趣可以从至少 20 项主要公司和人工智能药物发现技术公司之间报告的合作伙伴关系中看出。据称,辉瑞、葛兰素史克和诺华等制药公司也在内部建立了强大的人工智能专业知识,其他公司也可能正在这样做。
尽管这些公司的研究主管对一些早期结果表示了热情,但他们很快承认,考虑到很少有新的人工智能辅助候选药物进入药物开发的动物测试阶段,更不用说人体试验了,人工智能对于利润而言并非万无一失。罗氏子公司基因泰克公司的高级副总裁 Sara Kenkare-Mitra 表示,人工智能是否能成功提高药物发现的效率,目前尚无定论,即使它能做到,“我们还不能说这将是渐进式的改进还是指数级的飞跃。” 如果许多人工智能努力产生的药物能够顺利进入人体测试,那么除非这些药物一路通过 FDA 批准,否则这个问题仍将无法得到充分解答。
百时美施贵宝公司的 Saha 认为,人工智能辅助药物进入市场的速度在一段时间内可能会保持较低水平。然而,如果测试和批准流程得到简化,以考虑到机器学习和深度学习系统更准确地预测哪些药物极有可能安全有效,以及哪些患者最适合这些药物的能力,那么这种速度可能会大幅提高。“当监管机构看到我们从人工智能中看到的相同价值时,闸门可能会打开,”他说。“在某些情况下,一旦我们证明这些药物可以无毒地击中其靶点,我们可能会被允许跳过动物模型,直接进行人体测试。”但他承认,这些变化可能还需要很多年才能实现。他补充说,暗示人工智能取代科学家和传统研究是错误的——虽然人工智能支持和放大了人类的努力,但它仍然依赖人类来产生新的生物学见解,设定研究方向和优先事项,指导和验证结果,以及生成所需的数据。
Berg 的 Narain 表示,围绕基于人工智能的药物发现的令人窒息的炒作实际上可能具有破坏性,因为过度承诺可能会导致失望和强烈反对。“现在还处于早期阶段,我们需要清醒地认识到,这些是可能有所帮助的工具——它们还不是解决方案,”他说。Cyclica 的 Kurji 指责人工智能公司做出他所说的夸大营销声明,例如将开发一种药物所需的多年时间和数十亿美元减少到几周和几十万美元。“这根本不是真的,”他说。“而且这样说是既不负责任又具有破坏性的。”
但 Kurji 坚称,如果炒作会造成伤害,他也知道什么会给人工智能药物发现行业带来巨大推动:更多高质量的信息来输入各种程序。“我们依赖三件事:数据、数据和更多数据,”他说。辉瑞公司药物科学副总裁 Enoch Huang 也赞同这种观点,他说拥有正确的算法并不是最重要的因素。
用大量相关数据来喂养人工智能软件的需求实际上正在改变科学,因为研究人员正在开展更多实验,特别是在考虑到生成与人工智能相关的数据的情况下。基因泰克的 Kenkare-Mitra 指出,这种情况已经在免疫疗法药物研究中发生。“临床上并不总是有足够的数据可用于机器学习,”她说。“但我们通常可以在体外生成这些数据并将它们输入到系统中。”
这种方法可能会在药物发现中形成良性循环,人工智能有助于阐明研究人员需要寻找靶点和药物的领域。此外,由此产生的研究提供了更大、更相关的数据集,使软件能够指向更有成效的研究途径。“我们相信的与其说是人工智能,”Kenkare-Mitra 说,“不如说是人机合作。”