“从错误中学习。”这是一句熟悉的格言,但人们仍然倾向于强调他们的成功,并将他们的失败扫到地毯下,正如普林斯顿大学的一位教授上周在他发布了他的“失败简历”(pdf)时指出的那样,该简历此后在网上疯传。现在,在本周发表在《自然》杂志上的一项研究中,宾夕法尼亚州哈弗福德学院的一组研究人员将这个想法提升到了一个新的水平——将其应用于科学界。(《大众科学》是施普林格·自然的组成部分。)
尽管大多数实验都失败了,但只有成功才会在科学文献中报道并在专家之间讨论。绝大多数数据被丢弃,留在被遗忘的实验室笔记本中积灰,或者根本没有记录下来,从而有效地无法用于进一步的研究。“科学文献对失败存在偏见,”该研究的主要作者之一,实验化学家亚历山大·诺奎斯特说。“我们想做的是从通常未被报道的大量失败反应中提取尽可能多的信息。”为了实现这一目标,哈弗福德的研究人员使用了一系列这些失败或“黑暗”反应来创建一个机器学习模型,该模型能够比人类更准确地预测新的化学反应的成功率。
他们首先汇编了一个包含近4000个化学反应的数据库(其中许多反应失败,因此尚未数字化),这些反应是过去十年在诺奎斯特实验室进行的。这些信息侧重于新材料的合成——在本例中是称为模板钒亚硒酸盐的固体,它由钒、硒、氧和有机成分组成。然后,他们创建了一种机器学习算法,从这些数据中推导出模式,并确定是什么导致了一些实验成功而另一些实验失败。通常,像诺奎斯特这样的科学家会在多年内建立起一种直觉,了解条件(温度、反应物的数量和比例、酸度以及许多其他因素)的组合,这些组合可能会导致晶体的成功形成。“但我们的直觉总是不完整的,”诺奎斯特说。“反应物之间差异的微妙之处和细微差别并不容易显现。”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。
因此,该团队转向了机器学习:他们为每个反应分配了近300个属性,然后使用支持向量机(可以分析高维度数据)来预测新反应物组合所需的条件,然后在实验室中对这些组合进行了测试。该算法预测了这些案例中89%的晶体成功形成的条件——相比之下,研究人员的预测成功率为78%。
由于考虑到正在考虑的大量数据,算法决策的原因并不总是清楚,因此研究人员随后回到模型本身,生成了一个决策树,这是一个流程图式的结构,显示了一系列选择的潜在结果。使用这种更易于解释的方法,他们能够获得新的见解并形成假设。例如,他们发现极化率(衡量电场存在下电荷分布如何扭曲的指标)以一种他们根据自己的实验室经验未曾预料到的方式很重要。事实上,他们最终得到了关于不同反应物子集的三个假设。一类含有某些有机成分的反应需要特定氧化态的钒的存在。与此同时,当这些成分具有低极化率时,研究人员意识到他们必须将注意力转向其他反应物的行为,即钠。最后,对于特别大的有机成分,电荷密度起着至关重要的作用。“真正的创新之处在于端到端管道,”计算机科学家索雷勒·弗里德勒说,她是该研究的另一位主要作者。“从以前被认为是失败的、不重要的反应中提取信息,并使用其中包含的信息与机器学习管道连接,然后尝试检查机器学习管道的结果以生成这些新假设的想法。”
这些发现正值材料研究变得越来越重要之际。例如,白宫于2011年启动了材料基因组计划,以加快新材料的发现和上市速度。现在,哈弗福德团队的机器学习方法可能有助于科学家们更有针对性地进行这项搜索——既可以通过优化已知的合成工艺,也可以通过创造新型固体。“材料是我们能想到的每一项技术进步的核心,”加州大学圣巴巴拉分校的材料研究员拉姆·塞沙德里说,他没有参与这项研究。“我现在正在使用的手机——它的锂电池充满了先进材料,这些材料正是通过本文中描述的那种化学合成方法制造的,”他指出。
手机并非此类材料的唯一潜在应用。这项研究可以 направлена на все,从制造更好的洗发水和防晒霜到制造新的药物和建造更好的太阳能电池板。此外,研究人员希望在化学领域内外其他领域推广他们的机器学习方法。该团队已将其反应数据库在线发布,以便其他科学家可以贡献自己的数据。“我们真的非常兴奋,”弗里德勒说。“我们希望这篇论文能激励其他实验室想要与我们合作。”获得此类数据,特别是失败的数据,将使他们能够做出新的发现并改进他们的算法。“现在是数据世纪,”哈佛大学化学与化学生物学教授阿兰·阿斯普鲁-古兹克说,他没有参与这项研究。“这篇论文表明,我们可以从失败的实验中学到很多东西。”
“通常,科学不是数据驱动的,而是因果驱动的。这项工作承认,有时你必须超越因果关系,使用数据驱动的方法,”塞沙德里补充道。“但奇妙的是,数据驱动的方法本身会导致对因果关系更好的理解。因此,[哈弗福德团队]采取的方法不可避免地将成为我们很多人未来会越来越多地采用的方法。”