公告/发布日期:2018/09/19

mile米乐官方网站 仅通过设置分子结构即可快速且高精度地预测物理性质

-通过将耗时的理论计算速度加快一万倍以上,加速材料开发进程-

积分

  • 通过结合物理化学知识和机器学习,我们可以仅从分子结构快速准确地预测分子的物理性质
  • 比耗时的理论计算快10000倍以上,可显着加速材料开发进程
  • 我们希望这将导致“发现”迄今为止尚未探索过的新物质


摘要

米乐m6官方网站[理事长中钵良二](以下简称“AIST”)人工智能研究中心[研究中心主任 Junichi Tsujii] 机器学习研究组 Jun Seze 研究组组长 Masashi Tsubaki AIST 特别研究员为国立大学法人:东京大学 [校长 Makoto Goonokami] 工业科学研究所 [主任 Toshiharu Kishi](以下简称“东大 IIS”)材料环境系 Teruyasu Mizoguchi 与副教授合作,开发了一种预测以快速、高精度和可验证的方式从化学物质的分子结构中了解其物理性质。

要了解化学物质的物理性质,您必须实际合成它并测量物理性质,这非常耗时理论计算这次,我们将基于物理化学知识,创建一个函数(潜力) 是使用神经网络设置和训练的。该函数对应于原子之间的相互作用和化学键的强度,因此可以从物理化学的角度解释和验证学习结果。例如,当利用学习结果预测分子的各种物理特性时,可以在 1/100 秒内预测原子化能量,精度小于 001 eV(电子伏特)。这意味着以比理论计算快一万倍以上的速度实现了与理论计算相当的精度。

此结果的详细信息,请参见美国化学会物理化学领域的期刊物理化学快报杂志,但在此之前刚刚接受的手稿发布于 2018 年 8 月 6 日(DOI:101021/acsjpclett8b01837)。

概览图
结合物理化学知识的机器学习方法


发展的社会背景

世界上有大量的化学品。美国化学会的化学数据库中登记了大约 3,000 万种物质,其中 5,000 种在全球每年的产量超过 1,000 吨。这些化学物质表现出多种物理性质,如光吸收和导热的强度,其物理性质由组成元素的类型、分子结构和化学键的强度决定。了解此类化学物质的物理性质对于材料开发非常重要,迄今为止已使用两种方法。一是实际合成物质并测量其物理性质,二是将化学物质的分子结构输入计算机并进行理论计算。然而,两者都需要各种设备、专业知识和经验,并且需要很长时间。需要一种方法来解决这些问题,并通过能够快速且高精度地预测化学物质的各种物理性质来加快材料开发的速度。

研究历史

在 AIST,机器学习不仅包括图像和语言等数据,还包括化学和材料数据。此外,作为能够与人类相互理解的下一代人工智能技术,我们正在进行研究和开发,通过结合大规模数据和人类积累的知识,使复杂的机器学习成为可能,并使学习的结果更容易解释和验证。这次,我们致力于研究和开发一种利用物理化学知识通过机器学习来预测化学物质的物理性质的方法。

这项研究与开发得到了国家研究开发机构新能源和产业技术综合开发组织 (NEDO)“下一代人工智能和机器人核心技术开发/下一代人工智能技术领域/与人类可以相互理解的下一代人工智能技术”和国家研究开发机构日本科学技术振兴机构 (JST) 战略创意研究促进项目的支持。这项工作得到了个人研究(PRESTO)研究领域“构建连接和融合理论、实验、计算科学和数据科学的先进材料信息学基础技术”的研究项目“利用信息科学方法阐明界面的结构-功能关系”(研究员:Teruyasu Mizoguchi(东京大学生物科学研究所副教授))(研究导师:Shinji Tsuneyuki(东京大学教授)东京))。

研究内容

分子结构表示为元素及其位置,即三维结构数据。近年来,灵活的机器学习方法开始被提出,可以通过直接输入任意大小或结构的分子的分子结构数据来预测物质的物理性质。然而,利用常规方法很难解释学习结果,并且无法验证学习结果的有效性。这次,基于物理化学领域使用的近似公式,在分子中的原子之间建立了一个函数(势),将化学键等相互作用的“强度变化”表达为“弹簧的膨胀和收缩”。他们设计了一种使用大规模数据训练代表该函数的神经网络(机器学习模型)的方法。该函数对应于原子之间的相互作用和化学键的强度,因此可以从物理化学的角度解释和验证学习结果。

使用新设计的方法,我们训练了包含超过 130,000 种化合物的大型数据库,并评估了计算时间和预测的准确性。结果证实,分子的各种物理性质的预测速度比理论计算快一万倍以上,且精度与理论计算相当(图1)。

此外,当我们对通过物理化学理论计算获得的表示原子间化学键(单键和双键)强度的电势与使用这种方法获得的电势进行比较和验证时,我们能够确认它们非常一致(图2)。这表明新方法学到了可以从数据中进行物理化学解释的信息。

在对物理、化学等数据进行预测时,通过将计算机学到的结果与人类已有的物理、化学知识和理论计算进行比较来验证结果的有效性非常重要,但这种方法不仅可以加速材料物理性能值的预测,还可以加速包括验证在内的整个过程。

图1
图 1 通过机器学习预测的物理属性值 (HOMOLUMOU0
括号内的物理属性值是通过理论计算得出的
图中的原子是白色的氢、灰色的碳、红色的氧和蓝色的氮。

图2
图2化学键强度的电位曲线(左边是理论计算,右边是机器学习得到的结果)

未来计划

有大量具有不同元素和分子结构组合的化学物质,但其中只有不到002%被大量生产。该方法通过综合评估大量候选化学物质的物理性质,可以快速、高精度地预测化学物质的物理性质,有望加速发现具有更好或新功能的化学物质的进程。未来,我们将提高我们开发的方法的精度,并用它来显着加速材料开发,从而发现新的化学物质。



术语解释

◆理论计算
有第一性原理计算、晶格静力学计算、分子动力学计算等多种方法,但这里我们使用第一性原理计算,根据原子的类型和排列来计算电子波函数。单次理论计算需要数小时至数十小时的计算时间。[返回来源]
◆机器学习
一种从数据中提取变量之间的函数关系和规则并使数据分类和预测成为可能的方法或算法。有多种方法,例如模仿人脑神经回路的神经网络和支持向量机。[返回来源]
◆潜力
表示力强度变化的函数。力的大小可以通过对势函数求导来获得。[返回来源]
◆HOMO
最高占据轨道的缩写。指电子占据的最高能量分子轨道。[返回来源]
◆LUMO
最低轨道的缩写。指未被电子占据的最低能量分子轨道。[返回来源]
◆U0(雾化能)
原子化能是将分子分离成单个原子所需的能量。 [返回来源]



联系我们

查询表