国科大苏刚团队提出第一性原理贝叶斯主动学习方法加速发现先进功能材料

       机器学习方法超越了传统的材料设计“试错法”,可以显著提高发现先进功能材料的效率,但是仍然受到材料数据有限和目标性质分布不平衡等问题的限制。最近,中国科学院大学苏刚研究团队提出第一性原理贝叶斯主动学习方法,即结合贝叶斯主动学习和高通量第一性原理计算,能以极高的效率和准确性发现具有目标性质的先进功能材料,并成功从一大类二维六角二元材料中分别筛选出具有很高电极化的铁电材料和合适带隙的光伏材料,且计算量仅为随机搜索方法的几十分之一。该方法可应用到发现具有目标性质不平衡的更多功能材料。该项研究成果于近期发表于纳米领域国际知名期刊《纳米尺度》(Nanoscale, 2021,13, 14694-14704)。

       设计具有特定性质的功能材料是物理学和材料科学的挑战性问题之一。复杂的材料高维搜索空间使得传统的试错法难以在成千上万的候选材料中高效率发现目标功能材料,仅仅采用高通量第一性原理计算方法效率低且会浪费计算资源。监督机器学习已经广泛应于加速发现先进功能材料,但是有限的材料数据和不平衡的目标性质分布会显著降低监督学习模型的精度。贝叶斯主动学习方法通过优化获得函数可以在复杂高维空间中高效搜索最优值。贝叶斯主动学习和高通量计算方法两者的有机结合,将产生新的材料预测和设计方法,会极大地加快先进功能材料研发进程。

       最近,中国科学院大学苏刚研究团队提出贝叶斯主动学习结合高通量第一性原理计算方法,可以高效准确地发现具有特定性质的先进功能材料。该方法仅需极小的计算量就可以准确发现具有目标性质的更多功能材料,特别是在目标性质不平衡的数据集中,所需要的计算量仅为随机搜索的几十分之一。该方法成功地从3119个二维六角双元化合物中分别发现具有最高电极化的铁电材料和合适带隙的光伏材料。此外,还发现了多个稳定的具有面外电极化的新型二维铁电和光伏材料。

图一、第一性原理贝叶斯主动学习方法发现目标功能材料的流程图

 

       在该方法中,首先从数据集中随机选择一小部分的数据作为初始数据集,该数据集的材料性质可通过密度泛函理论计算得到,利用高斯过程回归算法建立材料特征和目标性质间的机器学习模型,利用该模型对剩余材料数据集进行预测,得到每个材料的预测性质和误差,进而得到获得函数并选择其最大值的材料,再利用密度泛函理论计算材料性质并放入初始训练集重新训练新的机器学习模型。重复上述迭代过程,直到材料性质达到预期的要求为止。该方法发现目标材料的优化方向是由基于高斯回归过程模型预测结果的获得函数来确定,每一个确定的材料再用密度泛函理论计算,因此仅需极小的计算量和较高的准确性就可以在高维搜索空间发现目标材料。同时,这个方法仅与获得函数形式有关,与材料的类型、性质以及材料数据分布无关,因此可以极小的计算量和极高的准确性发现目标功能材料。

       为了检验第一性原理贝叶斯主动学习方法的应用效果,研究人员分别进行了独立的十次贝叶斯主动学习与随机搜索,以发现具有高电极化的铁电材料和合适带隙的光伏材料。测试结果表明,通过二十多次迭代,仅仅计算一百种材料,就找出了具有最高电极化的铁电材料和合适带隙的光伏材料,说明该方法的高效率;该搜索结果与对所有材料进行高通量第一性原理计算的结果一致,也验证了方法的准确性。然后研究人员又进行了方法对比测试,发现如果使用随机搜索方法,需要进行数百次迭代以及计算数千个结构,才能得到与上述第一性原理贝叶斯主动学习方法同样的搜索效果。因此该新方法可以在显著降低计算量的同时保持极高的准确性。

图二、独立执行十次第一性原理贝叶斯主动学习(BAL)和随机搜索算法(RS)比较。这十次独立优化均随机选择15个初始结构,再将5个最高获得函数值的结构进行密度泛函理论计算,加入每次迭代优化中,以便找到具有最高电极化值和最接近于1.5 eV带隙的材料

 

图三、两百次独立执行第一性原理贝叶斯主动学习(BAL)和随机搜索算法(RS)比较。直方图对应发现具有最大电极化值和合适带隙的结构需要计算的结构数量

 

       这项研究工作结合不同方法的优点,提出了第一性原理贝叶斯主动学习方法,实现了高效准确地从数千种候选材料中发现目标功能材料。更重要的是,该方法不依赖于特定材料种类、性质以及材料数据的分布,特别是在材料数据分布不平衡的情况下具有明显优势。因此,新方法克服了现有方法的局限性,可应用于更为广泛的材料研究领域,对高效准确发现更多先进功能材料具有重要意义。

       凝聚态理论与计算材料物理实验室的博士生马星宇和吕厚毅为共同第一作者,闫清波和苏刚教授为共同通讯作者。这项工作得到了国家重点研发计划项目(2018YFA0305800)、中国科学院先导项目(XDB28000000)、国家自然科学基金委(11834014),北京市科委(Z191100007219013)和中央高校基础研究项目的资助,相关计算在中国科学院超级计算中心和国家超级计算广州中心的天河二号平台上完成。