技术文章和通讯

用机器学习筛选多源数据以获得更安全的电池材料

斯坦福大学奥斯汀·d·森德克(Austin D. Sendek)著


2016年6月14日,喷气推进实验室研究人员为从灾区营救人员而制造的一种类人猿机器人RoboSimian在实验室爆炸并起火。次年,一家主要手机制造商在接到火灾和爆炸报告后,在全球范围内召回了其新款平板电脑。自那时以来,类似事件的报道不胜枚举。在每种情况下,锂离子电池都被确定为根本原因。

这些电池的问题在于它们的液体电解质,如果电池供电的设备不能足够快地冷却,它们往往会蒸发或着火。研究人员正在寻找具有良好离子导电性和电化学稳定性的固体电解质材料,以取代这些具有潜在危险的液体电解质,但研究进展缓慢。通过实验或模拟来评估一种单一的候选材料可能要花费数周的时间,而且在材料项目数据库中有超过12000个含锂晶体固体可能是有希望的候选材料——更不用说还没有编目的成千上万种材料了。

使用MATLAB开发的机器学习模型®在美国,我和同事们发现了大海捞针:从我们分析的1.2万种以上的电解质中,只有少数特殊的固体电解质。在一组已知的良好电解质及其原子结构的训练下,我们的MATLAB模型似乎比随机猜测更有可能识别出有前途的新材料,比在该领域工作的斯坦福研究生的可能性高出两倍。

锂离子电池基础知识:液体电解质的问题

在锂离子电池中,锂离子在电池充放电时通过电解质迁移。因为水会与锂发生反应,电池制造商使用有机溶剂而不是水基溶剂作为电解液。这就是问题所在:与水不同,汽油、发胶和洗甲水等有机液体通常是易燃且不稳定的。

除了安全问题外,液体电解质至少还有两个缺点。首先,使用它们来制造更高电压的电池是困难的,因为当通过它们的电压升高时,它们往往会发生故障。其次,它们对防止所谓的树突增长这是电池导致过早死亡的主要原因。综上所述,这些缺点为寻找一种合适的固态电解质提供了强有力的动力。

从多个来源组装数据

在Evan Reed教授的指导下,我们开始从三个来源收集数据:材料项目数据库、已发表的论文和无机晶体结构数据库(ICSD),一个在线的实验验证原子结构数据库。

首先,我们在材料项目数据库中确定了所有的12831个含锂固体。经过结构稳定性、化学稳定性和低电导率的筛选,我们排除了92%以上的初始集。此外,我们还编制了有关地球资源丰富程度和预测成本的资料。这一初步筛选为我们留下了超过300种稳定的候选材料,如果它们的锂电导率足够快,这些材料可能是有前途的固体电解质材料。为了做到这一点,我们转向了机器学习。[1]

我们首先梳理科学文献,找到40种固态晶体材料,研究人员已经对其晶体结构进行了表征,并测量了室温下的离子电导率。这40种材料中约有1 / 3的离子导电性足以成为有用的电池电解质,尽管这些材料都存在稳定性问题,阻碍它们被用于固态电池。这40种快、慢锂导电材料的混合物将作为机器学习算法的训练集,用于快速预测新材料中的锂导电行为。

然后我们从ICSD下载了这40种材料的原子结构。利用这些数据,我们根据结构中原子的位置、质量、电负性和原子半径,计算出了20个表征局部原子排列和化学性质的特征。这些计算均在MATLAB中完成。我们选择的20个特征包括原子指标,如每个原子的体积,锂键离子度,锂邻居的数量,最小的阴离子-阴离子分离距离。我们相信这20个特征可能与离子电导率有关,无论是基于我们的直觉还是文献中先前的报道。我们发现,在将机器学习应用于如此小的数据集时,使用这种“智能”特征——即基于现有材料物理学知识的特征——是必不可少的。

选择机器学习模型

下一个问题是:这20个特征的哪一个组合最能预测训练数据?由于我们的训练集相对较小,只有40种材料和20种特性,再加上MATLAB在建模方面提供的轻松和灵活性,我们能够考虑超过1000万种可能的特征和模型组合。

统计和机器学习工具箱™ 使探索这些众多模型变得容易,包括最小二乘回归、稳健回归、局部加权最小二乘、支持向量机、逻辑回归和多类分类。我们为要测试的每个机器学习算法训练了一个模型,然后根据我们的训练数据验证了算法的准确性。

单独使用原子特征训练的模型没有一个能提供足够的预测离子电导率的能力,但多特征模型可以。最终,我们确定了一个具有5个特征的最优逻辑回归模型,该模型能够以低至10%的交叉验证误差对训练集材料进行分类。这对我们来说是有意义的,因为逻辑回归分类器倾向于在像我们这样的小训练集中表现良好。逻辑回归分类器将给出一个二元预测:这种材料是否显示出足够的锂导电性,作为固体电解质材料有用?我们训练过的模型十有八九是准确的。

然后,我们在剩下的300多个候选材料上释放了这个经过训练的模型(图1)。

图1所示。由机器学习模型识别的候选人。

分类器使我们能够消除93.3%的候选材料,从最初的12831中只剩下21个潜在候选材料。一旦模型经过训练,这个筛选步骤只需几秒钟就完成了。总之,我们通过筛选过程消除了99.8%的候选材料。

结果和下一步

为了验证预测的有效性,我们使用精确但缓慢的基于量子物理的模拟来模拟这些材料中的锂传导到目前为止,我们已经发现,当我们遵循基于机器学习的模型的建议时,我们发现新的锂离子导电材料的速度比使用简单的试错法快三倍。我们甚至通过给模型和Stanfo组提供相同的随机抽取材料列表,对照人类直觉对模型进行了测试该模型在识别良锂导体方面的准确度是学生的两倍,而在不到千分之一的时间内进行预测。

我们的模型确定的一些候选材料完全出乎意料。这些材料的原子结构是如此复杂,以至于我们没有科学直觉来帮助我们确定这些材料是否具有足够的离子导电性。当结果证明他们确实像模型预测的那样进行了行为时,这有助于验证我们的直觉。现在,我们可以将所学到的知识整合到未来版本的MATLAB机器学习模型中,我们希望随着更多实验数据的报告,该模型将得到改进。我们发现的一种材料是如此令人兴奋,以至于我们申请了专利,并立即找到了一个感兴趣的公司合作伙伴来授权该专利并继续研究该材料。

我们继续进行一些这样的测试,无论是在斯坦福,还是与外部团体合作,他们正在对个人候选人材料进行研究。在不久的将来,这些候选材料中的一种可能被证明是固体电解质,它可以取代锂离子电池中的液体电解质,使爆炸电池组成为历史。

斯坦福大学是全球近1000所提供MATLAB和Simulink校园访问的大学之一。万博1manbetx有了Total Academic Headcount (TAH)许可,研究人员、教师和学生可以访问最新版本的产品的公共配置,以便在教室、家里、实验室或现场的任何地方使用。s manbetx 845

关于作者

Austin D.Sendek是斯坦福大学应用物理系的博士候选人,与材料科学与工程系的Evan Reed教授合作。他的研究兴趣包括基于机器学习和人工智能概念的新计算方法的开发和部署,以加速储能应用材料的设计。

2018年出版

参考文献

  1. 阶数,公元et al。”固体锂离子导体材料12,000多种候选材料的整体计算结构筛选能源环境。科学。(2016).内政部:10.1039/C6EE02697D。https://pubs.rsc.org/en/content/articlehtml/2017/ee/c6ee02697d

  2. 阶数,公元et al。”机器学习辅助发现了许多新的固体锂离子电解质材料。”arXiv: 1808.02470(2018)。https://arxiv.org/abs/1808.02470

查看相关行业的文章