人工智能将帮助科学家提出更强大的问题

自学习系统可以发现海量数据集中的隐藏模式,超越人类自身所能发现的

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,仅反映作者的观点,不一定代表《大众科学》的观点


过去几个世纪的科学进步不仅加深了我们对宇宙的理解;它们还提高了全球许多人的生活水平。然而,正如气候变化和 COVID-19 大流行所表明的那样,我们仍然面临着许多我们尚未充分应对的巨大挑战,这些挑战表明我们尚未理解自然的复杂性。为了解决当前人类面临的规模庞大的问题,我们需要采取根本性的解决方案——科学突破将是这一过程的核心。人工智能有望通过深化研究人员可以提出的问题的本质来加速基础发现。

在他 1945 年发表的富有远见的文章“As We May Think”中,杰出的美国工程师和科学倡导者范内瓦·布什预测,人们很快就需要依靠外部设备来增强他们的思维。即使在当时,他也能看到科学发现的速度如此之快,以至于存储、处理和理解信息的需求已经超过了人们的生物能力。

他富有远见的观察比以往任何时候都更加真实:现代科学的挑战之一是理解我们收集的关于世界的海量信息。鉴于科学产生的数据规模——从大型强子对撞机到大型基因组项目——任何个人都不可能解析所有数据。人工智能有望帮助我们将这些丰富的信息转化为理解——使我们能够提出个人难以解决的问题。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


长期以来,科学家们一直使用计算来推进科学,利用计算机程序来建模和模拟自然系统,以解释和理解科学现象。这种方法对科学非常有效,并推动了从原子模拟到宇宙模型等一系列进步。然而,这种经典范式受到其对人类程序员的依赖性的限制,人类程序员必须首先从理论和观察中提炼规则,然后使用这些规则来编写程序的行为代码。我们的希望是使用人工智能系统直接从数据或经验中推导出此类规则,并有可能超越个体研究人员可能破译的内容。这些自学习系统可以通过发现海量数据集底层结构的隐藏属性来探索潜在的解决方案和策略,因此可以增强而非局限于人类的理解。

因此,关键一点是为这些系统找到要探索的正确问题。尽管在科学领域应用人工智能方面已经做了大量工作,但直接应用这些技术并不一定(或应该)在每个科学问题上都取得突破。最具影响力的进步将来自将人工智能技术应用于对社会真正重要的问题,以及需要复杂的推理和分析能力的问题。解决问题的艺术很大程度上在于首先选择正确的问题。因此,关键一点是为这些系统找到要探索的正确问题。

例如,生物学中最重要的问题之一是理解蛋白质如何形成其形状。蛋白质对于身体的健康运作至关重要,并且像细胞内的微型机器一样发挥作用,以执行许多生命任务。蛋白质的形状决定了其功能,这就是为什么如此多的研究小组致力于发现不同蛋白质的结构;一旦蛋白质的形状已知,研究人员就可以更好地了解其工作原理,并筛选在疾病中发生故障时与之相互作用的药物。碰巧的是,这是人工智能的完美应用,因为我们有相对较大的已知蛋白质结构数据集可用于训练系统,并且这是一个我们可以量化进展的问题。

科学家可能花费数年时间使用耗时的实验方法(如晶体学)来研究单个蛋白质的形状。与其一次研究一种蛋白质的形状,不如使用现有数据来教导人工智能系统如何仅从其氨基酸序列描述来预测任何天然存在的甚至理论上可能的蛋白质的形状。基于神经科学启发的学习技术,我们最近发布的 AlphaFold 模型 可以训练大型已知蛋白质结构数据集,以预测一维氨基酸链如何折叠成三维形状。 

使用该系统,我们最近生成了构成 SARS-CoV-2(导致 COVID-19 的病毒)的六种蛋白质形状的预测。虽然我们的方法预测的结构不会直接带来治愈方法,但它们可以为研究人员提供有用的提示,以开发可能对抗该病毒的药物和抗体,并可能增进我们对这种全球健康威胁的理解。 

多年来,许多学术团体在折叠问题上取得了稳步进展,CASP(一个两年一度的蛋白质折叠预测竞赛)的准确性提高就证明了这一点。2018 年,AlphaFold 在 CASP13 中荣获最高荣誉,与上届比赛的最佳模型相比,准确率提高了 40%。未来,这种方法可以帮助科学家专注于最有希望的线索,节省时间和金钱,例如,在臭名昭著的昂贵药物开发过程中。通过人工智能驱动的模拟,可以在计算机上设计新型蛋白质,然后在现实世界中对其进行测试——帮助研究人员更有效地指导研究工作和资金。

这就是人工智能的魅力所在:它将实现从特殊到一般的抽象,从经验中提炼出统一的原则。它深化了科学家可以提出的问题的本质:不仅仅是“蛋白质 X 的形状是什么?”,更根本的是“任何蛋白质的形状由什么决定?” 追问这样的问题不会只贡献一个答案,而是许多答案,从而开辟全新的研究领域。

如果我们在预测蛋白质如何形成其形状方面取得足够的进展,我们可能会更容易设计出新的药物、酶和通用疫苗,从而带来无数的社会效益。同样,如果我们能使用人工智能来忠实地模拟原子集合,就有可能合理地设计用于电池、太阳能技术、碳捕获等的新材料。给定正确的问题、正确的训练数据和量化学习的能力,人工智能系统有望加深我们的科学理解并加速新的技术突破。人工智能不仅仅是自动化图像分类或简化供应链;我们希望用它来发现关于宇宙的新知识,并利用这种理解来改善世界。

© . All rights reserved.