米乐m6官方网站(会长石村和彦)(以下简称“AIST”)人工智能研究中心[研究中心主任辻井淳一]机器学习研究小组组长麻生秀树、研究员椿正志、东京大学产业科学研究所沟口辉泰教授均为量子物理学专家密度泛函理论深度学习发达的技术。该技术仅根据化合物的原子排列来表达化合物中电子的概率分布波函数,可以高速、准确地推断和预测电子密度和能量等物理属性值。
在材料开发和药物发现领域,计算化合物的各种物理性质值至关重要,但众所周知,通过使用深度学习技术预测物理性质值可以减少计算量。新开发的技术通过在深度学习模型内部明确表达波函数和电子密度等量子物理最基本的信息,解决了目前深度学习的主要问题——预测结果的可解释性和可靠性问题。此外,通过使用不受数据偏差影响的波函数和电子密度等通用信息,可以推断和预测其分子结构与训练数据有很大差异的未知化合物的物理性质。预计这将有助于材料开发和药物发现领域大规模寻找有用物质。
美国物理学会于 2020 年 11 月 10 日(东部时间)发布了这项技术的详细信息
物理评论信

图 1:通过发达的深度学习技术估算的化合物的电子密度
只有获得波函数之后,才能预测和可视化这样的电子密度。单一化合物的电子密度可以在几秒钟内预测出来。图中,白色代表氢H,灰色代表碳C,蓝色代表氮N,红色代表氧O,绿色代表氟F。可以看出,电子集中在化学键中(红色所示区域)。
在材料开发和药物发现领域,计算和预测化合物的各种物理性质(例如物质的能量、催化剂的反应产率、发电材料的效率和药物的活性)至关重要。计算和预测基于量子物理学理论计算/模拟虽然它被认为是有用的,但它存在计算成本巨大的问题。近年来,人工智能技术之一的深度学习被用来解决这个问题。然而,与理论计算和模拟不同,深度学习计算的内容是黑匣子,因此在材料开发和药物发现中重要的可解释性和可靠性低是主要问题。此外,虽然人工智能技术通常擅长从现有数据中得出答案的插值,但在通过推断不存在的数据得出答案的外推方面却很弱,并且性能往往会显着恶化。例如,物理性质值预测中的外推法涉及预测其分子结构与学习数据显着不同的化合物的物理性质。请注意,插值法是相反的,是对具有几乎相同分子结构的化合物的物理性质的预测。外推预测对于新材料和药物的开发极其重要。
AIST 对尖端机器学习技术进行了广泛的研究,从开发理论和算法到将其应用于实际数据。作为这项工作的一部分,我们一直致力于研究和开发深度学习技术,该技术具有高可解释性和可靠性,可预测对材料开发和药物发现很重要的化合物的物理性质。此外,东京大学产业科学研究所一直在进行材料信息学研究,利用机器学习技术进行材料开发。作为这项工作的一部分,我们一直致力于开发快速确定界面结构的方法以及从光谱预测物理性质的方法。
此项研究与开发得到了 JSPS KAKENHI 拨款 20K19876 以及 MEXT KAKENHI 拨款 19H05787 和 19H00818 的支持。
新开发的技术首先将化合物M的原子构型信息转换为理论计算和模拟中使用的原子波函数φ,以获得量子物理上正确的计算起点。然后波函数叠加原理从该 φ 计算分子的波函数 ψ然后,根据该ψ获知物性值E。另外,还可以根据分子的波函数ψ和原子排列得到的电子密度ρ计算潜力与V一一对应霍恩伯格-科恩定理作为整个模型的物理约束。重要的是,所有这些都是基于密度泛函理论的框架。通过使用复合原子构型(输入)和物理属性值(输出)的大规模数据库来训练该模型,可以通过波函数和电子密度来预测物理属性值。由于物理性质值是通过ψ和ρ导出的,这是量子物理学中最基本的信息,因此可以捕获不受学习数据偏差影响的化合物的本质,从而可以推断和预测物理性质值。具体来说,交替训练两个神经网络:一个根据分子的波函数 ψ 预测物理性质值 E,另一个对电子密度 ρ 施加势 V 约束。连接ψ和E的函数以及连接ρ和V的函数都是复杂函数,其确切形式未知,并且这些是从大型数据库中学习的。图2显示了该深度学习模型的示意图。

图2:新开发的深度学习模型示意图
图1显示了使用该技术获得的分子的波函数的电子密度的计算和可视化。与理论计算和模拟的结果相比,这些电子密度是合理的(图3)。虽然通过理论计算获得的值可以预测误差为1至2 kcal/mol的实验值,但该技术可以预测误差为1至3 kcal/mol的理论计算值。换句话说,可以以2至5 kcal/mol的误差来推断和预测实验值,这比传统技术的精度更高,可以说对于实际应用来说已经足够准确(图4)。此外,虽然理论计算对于一种类型的分子可能需要数十分钟到几个小时,但该技术可以在短短几分钟内预测 10,000 种类型的分子。这样,这项技术将理论计算速度提高了10万倍以上,同时保持了可以经受实际使用的外推精度,被认为在大规模寻找新材料和新药物以及新材料和新药物的高效发现和开发等实际应用中具有重要意义。

图3:通过机器学习和理论计算得到的乙烷和苯之间化学键的电子密度比较
理论计算得到的电子密度有两个峰值,这次开发的机器学习也能够重现这两个峰值。

图4:物理属性值(能量)的外推预测精度
横轴代表分子的大小,仅使用14个或更少原子的分子作为训练数据。纵轴表示能量方面理论计算与预测结果之间的误差,误差越小,预测就越接近理论精度。即使分子具有超过 20 个原子的大型、未知且复杂的结构,新开发的机器学习技术也能够将预测误差保持在较小水平。
这项新开发技术的一大特点是,它通过在基于密度泛函理论的深度学习模型中表达和传递波函数和电子密度来预测化合物的物理性质。这样,基于对物理理论的理解,消除了深度学习模型的黑箱性质,并在材料开发和药物发现的实际应用中提高了其可解释性和可靠性。
未来,我们将利用这次开发的技术大规模寻找有用的催化剂和药物,以在材料开发和药物发现中实际应用。此外,我们的目标是与物理学家和化学家合作,融入更多物理和化学知识,开发能够做出更准确预测的深度学习技术。
杂志名称:物理评论信
论文标题:量子深场:数据驱动的波函数、电子密度生成以及通过机器学习进行能量预测和外推
作者:椿正史和沟口辉泰