自动化科学发现是否有可能实现?我指的不是自动化实验。我的意思是:是否有可能制造一台机器——一个机器人科学家——它可以发现新的科学知识?我的同事和我花了十年时间试图开发一台。
我们有两个主要动机。第一个是更好地理解科学。正如著名物理学家理查德·费曼所说:“凡是我不能创造的,我就不理解。” 在这种理念下,试图制造一个机器人科学家迫使我们做出具体的工程决策,涉及抽象对象和物理对象之间、观测到的现象和理论现象之间的关系,以及假设的创建方式。
我们的第二个动机是技术性的。机器人科学家可以使研究更高效、更具成本效益。一些科学问题非常复杂,需要大量的研究,而且根本没有足够的人类科学家来完成所有工作;自动化为解决这些问题提供了我们最好的希望。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
用于科学的计算机技术一直在稳步改进,包括“高通量”实验室自动化,如DNA测序和药物筛选。不太明显的是正在自动化数据分析过程并开始生成原创科学假设的计算机。例如,在化学领域,机器学习程序正在帮助设计药物。机器人科学家的目标是将这些技术结合起来,以自动化整个科学过程:形成假设,设计和进行实验来验证这些假设,解释结果并重复循环,直到发现新知识。
当然,最终的问题是我们是否可以设计出一个能够真正完成整个过程的机器人科学家。我们实验室设计的两个机器人以及世界各地少数其他机器人的能力表明我们可以。
亚当挑战酵母
将人工智能应用于科学发现的开创性工作发生在 20 世纪 60 年代和 70 年代的斯坦福大学。一个名为 DENDRAL 的计算机程序旨在分析质谱仪数据,而相关的 Meta-DENDRAL 程序是最早的机器学习系统之一。研究人员试图创建自动化仪器,以便在 1975 年 NASA 海盗号任务期间寻找火星上的生命迹象。不幸的是,这项任务超出了当时的技术水平。从那时起,诸如 Prospector(用于地质学)和 Bacon(用于一般发现)以及更新的后继者等程序已经自动化了诸如提出假设和实验来验证它们之类的任务。然而,大多数程序都缺乏物理上进行自己的实验的能力,这对于人工智能系统即使要半独立地工作也是至关重要的。
我们的机器人亚当不是人形机器人;它是一个复杂的自动化实验室,可以填满一个小办公室隔间 [见对面页面的方框]。设备包括一个冰柜、三个液体处理机器人、三个机械臂、三个培养箱、一台离心机等等,所有部件都是自动化的。当然,亚当还拥有强大的计算大脑——一台进行推理并控制操作硬件的个人计算机的计算机。
亚当通过选择微生物菌株和生长培养基,然后观察菌株在培养基中数天的生长情况,来实验微生物的生长方式。该机器人每天可以自行启动约 1,000 种菌株-培养基组合。我们设计亚当是为了研究生物学的一个重要领域,一个适合自动化的领域:功能基因组学,它研究基因及其功能之间的关系。
第一个完整的研究是关于酵母酿酒酵母——用于制作面包、啤酒、葡萄酒和威士忌的生物。生物学家最感兴趣的是将该菌株作为理解人类细胞如何工作的“模型”生物。酵母细胞的基因远少于人类细胞。细胞生长快速且容易。虽然人类和酵母之间最后的共同祖先可能存在于十亿年前,但进化非常保守,因此对于酵母细胞来说大部分为真的事情对于我们的细胞来说也是如此。
亚当专注于理解酵母如何使用酶——催化特定生化反应的复杂蛋白质——将其生长培养基转化为更多酵母和废物产品的未解决问题。科学家们仍然没有完全理解这个过程,尽管他们已经研究了 150 多年。他们知道酵母产生的许多酶,但在某些情况下不知道哪些基因编码它们。亚当着手发现编码这些“孤儿”酶的“亲本基因”。
为了能够发现一些新的科学知识,亚当需要了解大量的现有科学知识。我们为亚当编程了关于酵母代谢和酵母功能基因组学的广泛背景知识。亚当拥有背景“知识”而不是信息的主张存在哲学上的争论。我们认为“知识”是合理的,因为它被亚当用来推理和指导其与物理世界的互动。
亚当使用逻辑语句来表示其知识。逻辑最初是在 2400 年前设计的,目的是比自然语言更精确地描述知识。现代逻辑是表示科学知识以及在机器人和人类之间明确交换知识的最准确方法。方便的是,逻辑也可以用作编程语言,这使得亚当的背景可以被解释为计算机程序。
为了开始亚当的调查,我们为它编程了许多事实。以一个典型的例子为例:在酿酒酵母中,基因ARO3编码一种名为 3-脱氧-D-阿拉伯庚酮糖酸-7-磷酸的酶。我们还给亚当提供了相关的事实,例如该酶催化一种化学反应,其中化合物磷酸烯醇丙酮酸和 D-赤藓糖 4-磷酸反应生成 2-脱氢-3-脱氧-D-阿拉伯庚酮糖酸 7-磷酸,加上磷酸盐。
这些事实连接在一起,形成了一个酵母代谢模型,该模型整合了关于基因、酶和代谢物(小化学分子)的知识。之间的区别
模型和百科全书的区别在于,模型可以转换为可以作用于数据以进行预测的软件。机器人科学家可以将抽象的科学模型与实验室机器人技术相结合,以自动测试和改进模型。
基因推理
当科学家遵循科学方法时,他们会形成假设,然后通过实验验证这些假设的演绎结果。通过这种方式,亚当首先假设关于酵母生物学的新事实,然后使用其代谢模型推导出这些事实的实验结果。接下来,亚当通过实验验证这些结果,以查看假设的事实是否与观察结果一致。
循环从亚当形成关于哪些基因可能是孤儿酶的亲本基因的假设开始[见第 76 页的方框]。为了专注于最可能的假设,亚当使用了其知识库。例如,它已知的一种孤儿酶是 2-氨基己二酸转氨酶。这种酶催化以下反应:2-氧代己二酸加 L-谷氨酸生成 L-2-氨基己二酸加 2-氧代戊二酸(该反应也发生在相反方向)。这种反应很重要,因为它可能是抗真菌药物的潜在靶点,但亲本基因未知。为了形成关于哪个酵母基因可以编码这种酶的假设,亚当首先查询其知识库,以查看是否已知来自其他生物体的任何基因编码该酶。此查询返回了以下事实:在褐家鼠(褐鼠)中,一个名为Aadat的基因编码该酶。
亚当获取了Aadat基因编码的酶的蛋白质序列,并检查酵母基因组中是否编码了任何相似的蛋白质序列。亚当知道,如果蛋白质序列足够相似,则可以合理地推断这些序列是同源的——它们具有共同的祖先。亚当还知道,如果蛋白质序列是同源的,那么它们共同祖先的功能可能已经保守。因此,从相似的蛋白质序列中,亚当可以推断出它们的编码基因可能具有相同的功能。亚当发现了三个与Aadat序列相似的酵母基因:YER152c、YJL060w 和 YJL202w。它假设这些基因各自编码酶 2-氨基己二酸转氨酶。
为了验证其假设,亚当进行了大量的物理实验。它从冰柜中的完整菌株集合中选择了特定的酵母菌株进行培养,其中每个菌株都缺失一个特定的基因。当在含有 L-2-氨基己二酸等化学物质(与酶催化的反应有关)的培养基中生长时,机器人检查了分别缺失基因 YER152c、YJL060w 和 YJL202w 的三个酵母菌株的生长情况。
下一步将是对菌株进行实验。科学研究的资金总是有限的。而且科学家们常常竞相成为第一个解决问题的人。因此,我们设计亚当来设计高效的实验,以廉价且快速地验证假设。为了实现这个目标,亚当假设每个假设都有一定的真实概率。这个假设是有争议的,一些哲学家,如卡尔·波普尔,否认假设可以具有相关的概率。然而,大多数工作的科学家都默认某些类型的假设比其他类型的假设更有可能被证明是正确的。例如,他们通常遵循“奥卡姆剃刀”的概念——在所有其他条件相同的情况下,一个更简单的假设比一个复杂的假设更可能成立。亚当还考虑了可能的实验成本,目前这只是所涉及化学品的成本。一个更好的方法也将包括时间的“成本”。
给定一组具有相关概率的假设和一组具有相关成本的可能实验,我们为亚当设定的目标是选择一系列实验,以最大限度地降低消除除一个假设之外的所有假设的预期成本。最优地追求这种方法在计算上非常困难,但我们的分析表明,亚当的近似策略选择的实验比其他策略(例如,仅选择最便宜的实验)更便宜且更快地解决问题。在某些情况下,亚当可以设计一个可以阐明许多假设的实验。人类科学家很难做到这一点;他们倾向于一次考虑一个假设。
20 个假设,12 个新颖的假设
一旦亚当的人工智能系统锁定了最有希望的实验,亚当就会使用其机器人技术来执行这些实验并观察结果。亚当无法直接观察基因或酶;它的观察仅包括有多少光线穿过酵母培养物。通过这些数据,经过复杂的推理链,亚当推断证据是否与关于基因和酶的假设一致。这种推理链在科学中很常见;例如,天文学家从他们在仪器中观察到的辐射中推断出遥远星系中正在发生的事情。
决定假设的一致性是亚当最困难的任务之一,因为科学家们已经发现了所有基因,去除这些基因会导致酵母生长的定性差异。去除其他基因通常只会产生较小的生长差异。为了确定当去除基因时,任何微小的差异是否显着,亚当使用了复杂的机器学习技术。
亚当生成并通过实验证实了 20 个关于哪些基因编码酵母中特定酶的假设。像所有科学主张一样,亚当的主张也需要得到证实。因此,我们使用亚当无法获得的其他信息来源以及我们亲手做的新实验来检查亚当的结论。我们确定亚当的结论中有七个是已知的,一个似乎是错误的,而 12 个是科学界的新发现。
作为检查,我们自己的手动实验证实,三个基因(YER152c、YJL060w 和 YJL202w)编码酶 2-氨基己二酸转氨酶。这些基因的作用以前可能没有被发现的原因是,这三个基因编码相同的酶,并且该酶可以催化一系列相关的反应;一个基因到一个酶功能的简单映射——常见的情况——在这里并非如此。需要亚当仔细的实验和统计分析来理清这些复杂性。
机器人是科学家吗?
有些人反对“机器人科学家”这个术语,他们指出,在某种程度上是合理的,亚当更像是一个助手,而不是一个独立的科学家。那么,声称亚当自主地发现了新的科学知识是否合法?让我们从“自主地”开始。我们不能简单地设置好亚当,然后在几周后回来检查其结论。亚当是一个原型,其硬件和软件经常出现故障,需要技术人员。还需要改进亚当的软件模块的集成,以便它们可以无缝地协同工作,而无需一些人工交互。然而,亚当假设和通过实验证实新知识的过程并不依赖于人类的智力或体力劳动。
“发现”一词引发了一场可以追溯到 19 世纪的争论,以及浪漫人物艾达·洛夫莱斯夫人。她是诗人拜伦勋爵的女儿,并与查尔斯·巴贝奇合作,查尔斯·巴贝奇是第一个构思通用计算机的人。洛夫莱斯夫人认为:“分析机无意创造任何东西。它可以做我们知道如何命令它执行的任何事情”(她的斜体字)。一百年后,伟大的计算机科学家艾伦·图灵通过类比儿童提出了反驳。正如老师不会因其学生的发现而获得所有功劳一样,人类声称对其机器的想法拥有所有功劳也是不公平的。这些论点在商业上越来越重要;例如,在美国专利法中,只有“人”才能“发明”某物。
最后,亚当的科学有多新颖?亚当假设并通过实验证实的酿酒酵母中基因和酶功能之间的一些映射肯定是新颖的。虽然这种知识是适度的,但并非微不足道。在酶 2-氨基己二酸转氨酶的案例中,亚当发现了三个可能解决了一个 50 年难题的独立基因。当然,亚当的一些结论可能是错误的;所有科学知识都是暂时的。然而,所有结论都是错误的似乎不太可能。亚当的结果现在已经公开两年了,没有人注意到任何错误。据我所知,我的团队以外的科学家尚未尝试重现亚当的结果。
评估亚当是否是科学家的另一种方法是亚当生成新假设的方法是否具有普遍性。一旦亚当开始运行实验,我们就开始开发第二个机器人。夏娃将相同的自动化研究周期应用于药物筛选和设计,这是一项重要的医疗和商业追求。我们从亚当那里学到的设计经验使夏娃成为一个更加优雅的系统。夏娃的研究重点是疟疾、血吸虫病、昏睡病和查加斯病。我们仍在开发夏娃的软件,但该机器人已经发现了一些有趣的化合物,这些化合物显示出对疟疾具有活性的希望。
一些研究人员正在应用类似于亚当的方法。康奈尔大学的 Hod Lipson 正在使用自动化实验来改进移动机器人的设计并了解动态系统。其他研究人员正在尝试为化学、生物学和工程学开发机器人科学家。
包括我自己的团队在内的几个小组正在研究自动化量子物理学研究的方法,特别是如何控制量子过程。例如,普林斯顿大学的 Herschel A. Rabitz 正在研究使用飞秒(10–15)激光来学习如何制造或破坏目标化学键的方法。这里的挑战是如何快速制定智能实验。
人类伙伴
如果我们接受机器人可以是科学家,我们想知道它们的局限性。将自动化科学的任务与自动化国际象棋的任务进行比较是有启发意义的。自动化国际象棋本质上是一个已解决的问题。计算机下棋与最优秀的人类棋手一样好甚至更好,并且可以走出非常漂亮的棋步。计算机掌握是可能的,因为国际象棋是一个有界限的抽象世界:64 个方格,32 个棋子。科学与国际象棋有很多抽象的性质,但自动化科学将更加困难,因为实验发生在物理世界中。然而,我预计,开发能够进行高质量科学研究的机器人科学家可能比开发能够与人类进行社交互动的人工智能系统更容易。在科学中,可以安全地假设物理世界不会试图欺骗你,但在社会中情况并非如此。
最成功的国际象棋大师现在使用计算机来提高他们的棋艺——分析局面和准备新的攻击。同样,人类和机器人科学家共同工作,发挥各自的优势和劣势,可以取得比任何一方单独工作更大的成就。计算机硬件和人工智能系统的进步将导致更智能的机器人科学家。
这些创造物是否能够产生范式转变的见解,还是仅限于例行的科学探究,这是关于科学未来的一个关键问题。一些顶尖科学家,如物理学诺贝尔奖获得者菲利普·安德森,认为范式转变的科学是如此深刻,以至于自动化可能无法企及。但另一位物理学诺贝尔奖获得者弗兰克·维尔泽克写道,100 年后,最好的物理学家将是一台机器。时间会证明谁是对的。
无论如何,我看到一个人类和机器人科学家网络将协同合作的未来。科学知识将使用逻辑描述,并使用网络即时传播。机器人将在科学进步中逐渐承担越来越重要的角色。