这绝对是一段极客范儿十足的视频:一部智能手机的特写镜头,屏幕上布满了成行成列向下滚动的数字和符号。但当访客来到尼古拉·马尔扎里的办公室,从那里可以俯瞰日内瓦湖时,他迫不及待地想展示这段视频。“这是2010年的,”他说,“这是我的手机在实时计算硅的电子结构!”
马尔扎里解释说,即使在当时,他那部现在看来很古老的手机也仅用了40秒就完成了量子力学计算,而这种计算曾经在超级计算机上需要花费数小时——这一壮举不仅展示了过去十年左右计算方法取得了多大的进步,也证明了它们在未来改变材料科学研究方式方面的潜力。
马尔扎里和志同道合的研究人员没有继续以老式的方式开发新材料——靠运气偶然发现,然后在实验室里费力地测量它们的特性——而是使用计算机建模和机器学习技术来生成数以万计的候选材料库。即使是来自失败实验的数据也能提供有用的输入。这些候选材料中有很多是完全假设性的,但工程师们已经开始通过搜索其预测的特性来筛选出值得合成和测试用于特定应用的材料——例如,它们作为导体或绝缘体的性能如何,它们是否会充当磁体,以及它们能承受多少热量和压力。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的有影响力的故事拥有未来。
加州大学伯克利分校的材料科学家、该领域的先驱塞德尔说,希望这种方法将大大提高材料发现的速度和效率。“我们可能只了解现有材料特性的1%左右,”他说,并以磷酸铁锂为例:这是一种最早在1930年代合成的化合物,但直到1996年才被认为是目前锂离子电池的有前景的替代材料。“以前没有人费心去测量它的电压,”塞德尔说。

NIK Spencer/《自然》杂志
《自然》新闻,2016年5月4日 doi:10.1038/533022a
世界上至少已经存在三个主要的材料数据库,每个数据库都包含数万甚至数十万种化合物。马尔扎里位于洛桑的材料云项目计划于今年晚些时候启动。更广泛的社区也开始注意到这一点。“我们现在看到实验学家想要的东西和理论家可以交付的东西真正融合在一起,”帝国理工学院材料科学家、研究副院长尼尔·阿尔福德说,但他与任何数据库项目都没有隶属关系。
然而,正如即使是支持者也很快指出的那样,从计算机预测到现实世界技术的道路并非易事。现有的数据库远未包含所有已知的材料,更不用说所有可能的材料了。数据驱动的发现对于某些材料效果很好,但对于其他材料则不然。即使在计算机上挑选出一种有趣的材料后,在实验室中合成它仍然需要数年时间。“我们通常更清楚我们应该制造什么,而不是如何制造它,”塞德尔说。
尽管如此,该领域的研究人员仍然相信,存在着大量有待发现的化合物,这些化合物可能会推动电子、能源、机器人、医疗保健和交通运输领域的创新。“我们的社区正在将拼图的许多不同部分组合在一起,”伊利诺伊州芝加哥大学的计算材料科学家朱莉娅·加利说。“当它们都拼合到位时,材料预测将成为现实。”
遗传学的启发
这种高通量、数据驱动的材料发现方法的想法在2000年代初浮现在塞德尔的脑海中,当时他在马萨诸塞州剑桥市的麻省理工学院(MIT),并受到即将完成的人类基因组计划的启发。“人类基因组本身并不是新疗法的秘诀,”他说,“但它为医学提供了惊人的大量基本定量信息,可以从中开始。”他想,材料科学家是否可以从遗传学家那里吸取一些教训?他们能否识别出“材料基因组”——塞德尔的说法——它以生物信息编码在DNA碱基对中的方式编码各种化合物的特性?
如果可以,他推断,这种编码一定存在于构成给定材料的原子和电子中,以及它们的晶体结构中:它们在空间中的排列方式。2003年,塞德尔和他的团队首次展示了量子力学计算数据库如何帮助预测金属合金最可能的晶体结构——这对于任何从事新材料发明的人来说都是关键的一步。
过去,即使对于超级计算机来说,这些计算也既漫长又困难。机器必须经过大量的反复试验才能找到“基态”:能量最小且所有力都处于平衡状态的晶体结构和电子构型。但在他们2003年的论文中,塞德尔的团队描述了一种捷径。研究人员计算了少量二元合金(两种不同金属的混合物)的常见晶体结构的能量,然后设计了一种机器学习算法,该算法可以从库中提取模式并猜测新合金最可能的基态。该算法效果良好,大大缩短了计算所需的计算机时间(参见“智能搜索”)。
“那篇论文介绍了公共材料特性库的想法,以及使用数据挖掘来填补缺失部分的想法,”斯蒂法诺·库塔罗洛说,他在同一年离开了塞德尔的团队,在北卡罗来纳州达勒姆市的杜克大学创办了自己的实验室。这个想法随后催生了两个独立的项目。2006年,塞德尔在麻省理工学院启动了材料基因组计划,使用改进的算法来预测用于电动汽车电池的锂基材料。到2010年,该项目已发展到包括约20,000种预测化合物。“我们从现有材料开始,修改它们的晶体结构——在这里或那里改变一种元素,并计算会发生什么,”克里斯汀·珀森说,她是塞德尔团队的前成员,在2008年搬到加利福尼亚州劳伦斯伯克利国家实验室后,继续参与该项目合作。
与此同时,在杜克大学,库塔罗洛成立了材料基因组学中心,该中心专注于金属合金的研究。他与犹他州普罗沃市的杨百翰大学和以色列内盖夫核研究中心的研究人员合作,逐步将2003年的算法和库扩展到AFLOW,这是一个可以对已知晶体结构进行计算并自动预测新晶体结构的系统。
原始小组以外的研究人员也开始对高通量计算感兴趣。其中一位研究人员是化学工程师延斯·诺尔斯科夫,他在丹麦灵比的丹麦技术大学开始使用高通量计算来研究将水分解为氢气和氧气的催化剂,后来在斯坦福大学SUNCAT计算催化研究中心担任主任期间,扩大了这项工作。另一位是马尔扎里,他是一个大型团队的成员,该团队正在开发Quantum Espresso:一个于2009年推出的量子力学计算程序。这就是视频中在他的手机上运行的代码。
材料基因组学
尽管如此,计算材料科学直到2011年6月才成为主流,当时白宫宣布了耗资数百万美元的材料基因组计划(MGI)。“当白宫的人们熟悉塞德尔的工作后,他们非常兴奋,”美国国家标准与技术研究所的材料科学家、MGI的执行秘书詹姆斯·沃伦说。“人们普遍意识到,计算机模拟已经发展到可以对创新和制造产生真正影响的程度,”他说——更不用说“基因组学”这个名字,“它让人联想到一些宏大的事物。”
自2011年以来,该计划已投资超过2.5亿美元用于软件工具、收集和报告实验数据的标准化方法、主要大学的计算材料科学中心以及大学与商业部门之间就特定应用进行研究的伙伴关系。但目前尚不清楚这种慷慨的资助实际上在多大程度上推动了科学进步。“该计划带来了很多好东西,但也带来了一些品牌重塑,”塞德尔说。“一些团体开始称他们的研究为基因组学这个和基因组学那个,尽管它与基因组学几乎无关。”
然而,MGI肯定做成的一件事是帮助塞德尔和其他人实现了他们对在线材料特性数据库的愿景。2011年末,塞德尔和珀森重新启动了他们的材料基因组项目,将其更名为材料项目——应白宫的要求放弃“基因组”标签,以避免与国家努力混淆。第二年,库塔罗洛发布了他自己的数据库,名为AFLOWlib,该数据库基于他在杜克大学开发的软件。2013年,伊利诺伊州埃文斯顿市西北大学的材料研究员克里斯·沃尔弗顿启动了开放量子材料数据库(OQMD)。“我们从材料项目和AFLOWlib那里借鉴了一般思路,”沃尔弗顿说,“但我们的软件和数据是本土开发的。”
这三个数据库都共享一个核心,即来自广泛使用的实验库——无机晶体结构数据库的约50,000种已知材料。这些是在实验室中至少创建过一次并在论文中描述过的固体,但其电子或磁特性可能从未经过全面测试;它们是可以从中衍生出新材料的起点。
这三个数据库的不同之处在于它们包含的假设材料。材料项目相对较少,从塞德尔和珀森的锂电池研究中衍生出的大约15,000个计算结构开始。“只有当我们确信计算准确,并且有合理的可能性可以制造它们时,我们才会将它们包含在数据库中,”珀森说。另外大约130,000个条目是明尼苏达大学明尼阿波利斯分校的纳米多孔材料基因组中心预测的结构。后者专注于沸石和金属有机框架:海绵状材料,其晶体结构中具有规则重复的孔洞,可以捕获气体分子,可用于储存甲烷或二氧化碳。
AFLOWlib是最大的数据库,包含超过一百万种不同的材料和约一亿个计算特性。这是因为它还包括数十万种假设材料,其中许多材料在现实世界中只会存在不到一秒钟,库塔罗洛说。“但是当你想预测材料实际上是如何制造出来的时,它会得到回报,”他说。例如,他正在使用来自AFLOWlib的数据来研究为什么某些合金可以形成金属玻璃——金属玻璃是一种特殊的金属形式,具有无序的微观结构,赋予其特殊的电学和磁学特性。事实证明,良好的玻璃形成剂和不良的玻璃形成剂之间的差异取决于在合金冷却时与基态“竞争”的不稳定晶体结构的数目和能量。
沃尔弗顿的OQMD包含约400,000种假设材料,这些材料是通过获取自然界中常见的晶体结构列表,并用几乎来自元素周期表每个部分的元素“装饰”它们来计算的。它对钙钛矿——通常表现出超导性等吸引人的特性,并且正在开发用于太阳能电池和微电子学的晶体——具有特别广泛的覆盖范围。顾名思义,该项目是这三个项目中最开放的:用户可以将整个数据库(而不仅仅是单独的搜索结果)下载到他们的计算机上。
所有这些数据库都是正在进行的工作,它们的管理者仍然花费大量时间添加更多化合物并改进计算——他们承认,这些计算远非完美。这些代码往往非常擅长预测晶体是否稳定,但在预测它如何吸收光或导电方面不太好——有时甚至会使半导体看起来像金属。马尔扎里指出,即使对于电池材料,计算材料科学在这方面取得了最大的成功,标准计算的平均误差仍然有半伏,这在性能方面会产生很大差异。“事实是,有些错误是理论本身带来的:我们可能永远无法纠正它们,”库塔罗洛说。
每个小组都在开发自己的技术来调整计算并弥补这些系统误差。但与此同时,他们已经在使用这些数据进行科学研究——其他小组的用户也是如此。材料项目已经确定了几种有希望的正极材料,它们可能比现有锂电池中的正极材料性能更好,以及可以提高太阳能电池捕获阳光并将其转化为能量的效率的金属氧化物。今年早些时候,都柏林圣三一学院的研究人员使用AFLOWlib数据库预测了20种赫斯勒合金,这是一类可用于传感器或计算机存储器的磁体,并设法合成了其中两种,证实它们的磁性能与预测非常接近(参见go.nature.com/v7djio)。
欧洲的扩张
材料基因组学也已传播到欧洲——尽管通常使用其他名称。例如,瑞士创建了MARVEL,这是一个计算材料科学研究所网络,以瑞士联邦理工学院(EPFL)为领导,马尔扎里为主任。他使用一个新的计算平台,正在创建一个名为材料云的数据库,他正在使用该数据库搜索“二维”材料,例如石墨烯,这些材料仅由单层原子或分子制成。此类材料可用于从纳米级电子产品到生物医学设备等各种应用。为了找到好的候选材料,马尔扎里正在对超过150,000种已知材料进行他所谓的“计算剥离”:计算从普通晶体表面分离单层所需的能量。到今年晚些时候数据库准备好公开发布时,他预计初步运行将产生约1,500个潜在的二维结构,然后可以在实验中进行测试。
在几公里外的锡永,位于瑞士阿尔卑斯山脉的高处,计算化学家贝伦德·斯密特建立了另一个EPFL中心,该中心开发算法来预测数十万种纳米多孔沸石和金属有机框架。其他算法——包括一种使用源自面部识别软件的技术扫描特定孔隙形状的算法——然后寻找从化石燃料发电厂的烟道中吸收二氧化碳的最佳候选材料。
斯密特的工作也表明,材料基因组学可能会带来坏消息。许多研究人员曾希望使用纳米多孔材料来制造汽车油箱,以便在更小的空间内储存更多的甲烷。但在筛选了超过650,000种计算材料后,斯密特的研究小组得出结论,大多数最好的材料都已经制造出来了。新材料只能带来微小的改进,而美国机构目前设定的能源目标——押注甲烷储存技术的重大改进——可能是不现实的。
尽管这些例子引人入胜,但在材料基因组学能够实现其承诺之前,仍有许多障碍需要克服。最大的障碍之一是,计算机模拟仍然很少提供关于如何在实验室中制造一种有趣的材料的线索——更不用说批量生产了。“我们一直会提出关于新化合物的有趣想法,”塞德尔说。“有时需要两周才能制造出来。有时六个月后我们仍然无法制造出来,我们也不知道是我们没有做对,还是根本无法制造出来。”
塞德尔和库塔罗洛都在尝试开发机器学习算法,以从已知的制造过程中提取规则,从而指导化合物的合成。
另一个限制是,材料基因组学迄今为止几乎完全应用于工程师所谓的功能材料——可以执行任务的化合物,例如在太阳能电池中吸收光线或让晶体管中的电流通过。但该技术不太适合研究结构材料,例如钢,钢是建造飞机机翼、桥梁或发动机等所需的材料。这是因为材料的弹性、硬度等机械性能取决于其加工方式——量子力学代码本身无法描述这一点。
即使在功能材料的情况下,当前的计算机代码也仅适用于完美的晶体结构——这只是材料领域的一小部分。“未来最有趣的材料可能会在微观层面以创造性的方式组装,”加利说。它们可能是纳米颗粒的组装体、结构中具有战略性缺陷的晶体,或由不同化合物和相交织而成的异质材料。加利说,为了预测此类材料,“你需要一次计算许多特性,以及系统在时间和特定温度下将如何演变”。她说,有一些方法可以做到这一点,“但它们仍然过于计算密集,无法用于高通量研究”。
在短期内,与实验进行更多的数据交换可以为计算提供现实检验,并有助于改进计算。为此,塞德尔正在与麻省理工学院的一个小组合作开发软件,该软件可以读取实验材料科学领域的论文,并自动提取标准格式的晶体结构信息。“我们计划在几个月内开始将这些数据添加到材料项目中,”他说。
从长远来看,一些帮助将来自摩尔定律:随着计算能力持续提高,当前计算机仍然无法实现的某些技术可能很快就会变得可行。
“我们已经摆脱了计算材料科学的工匠时代,进入了工业阶段,”马尔扎里说。“我们现在可以创建模拟装配链,投入使用,并以全新的方式探索问题。”目前还没有任何计算预测的材料上市。“但让我们十年后再谈,”加利说,“我认为届时会有很多。”
本文经许可转载,并于2016年5月4日首次发表。