人工智能随着量子物理和深度学习而取得了巨大发展
人工智能通过量子物理和深度学习得到了巨大发展

2022/08/31
量子物理 x 深度学习人工智能已经极大发展 即使在非学习领域也能进行高精度预测
人们常听说,在实验室中表现出高性能的人工智能 (AI) 在实际领域中的表现并不如预期。造成这种情况的最大原因是利用深度学习技术开发的AI“不灵活”。如果用于学习的数据稍微偏离这个范围,AI很快就会变得毫无用处。
为了让 AI 进入下一个阶段,AIST 开发了一种新的基础深度学习技术,即使在偏离训练数据的“外推区域”也能做出适当的预测。虽然有许多相互竞争的研究,但该技术与其他技术的显着区别在于它用于学习即使在数据之外的区域也能进行适当的预测可以做。这意味着,通过简单地利用小分子物体的特征数据训练系统,就可以准确地估计大分子物体的特征。实现这一目标的关键是深度学习与量子物理知识的融合无法在训练数据之外实现高性能一直是传统深度学习技术的主要弱点。这项技术通过结合深度学习和理论克服了这个弱点。与物理和化学相关的领域,包括材料开发和药物发现预计会产生全新的结果。
顶级AI无法在现场使用
这一切都始于一次痛苦的经历。人工智能研究中心的 Masashi Tsubaki 正在研究深度学习技术来预测药物和蛋白质之间的相互作用。 2017年12月,他在一个被称为AI领域巅峰的国际会议上报告了自己的研究成果,并在参加的研讨会上获得了最佳论文奖。然而,当他们尝试与制药公司合作在该领域使用这项技术时,并没有得到任何有希望的结果。
事实上,在实验中表现出高性能的人工智能在现场却无法按预期工作是很常见的。最大的问题是利用深度学习技术开发的AI不够灵活。如果用于学习的数据稍微偏离这个范围,AI很快就会变得毫无用处。例如,仅使用晴天或雨天数据进行训练的自动驾驶汽车在下雪时会失败。从黑猫和白狗的照片中学习的图像识别人工智能无法在图像中的动物是白猫或黑狗时做出适当的判断。
为了解决这个问题,世界各地的研究都在取得进展。欧洲和美国的主要IT公司正在利用其深厚的财力收集海量数据并开发庞大的人工智能模型,即使是最先进的超级计算机也需要数天时间来学习。可以说,这是一种前所未见的收集大量数据并减少数据量的方法。
椿的团队转向物理定律理论,看看是否有更有效的方法。这是一种在适当的地方结合了作为考虑物质属性的基础的量子物理理论和依赖大量数据的深度学习的方法。 (2020/11/11 新闻稿文章)
即使在第一个数据区域也具有很高的准确度
该团队创建的是一种人工智能,可以通过输入有关物体分子结构(组成分子的原子的位置关系)的数据来预测物体分子的属性(能量)。该人工智能是使用现有数据库进行训练的,该数据库检查各种物体的分子特性。
为了研究人工智能的预测能力,Tsubaki 等人。将这个数据库分为训练数据和测试数据。关键是训练数据只包含小分子(原子数少)的物质,而测试数据既包含小分子物质又包含大分子(原子数多)的物质。前者用于训练人工智能,后者用于预测从小到大的各种分子的特性。
结果如下图。横轴代表分子大小(原子数),纵轴代表与正确答案相比的误差。红线是Tsubaki等人开发的AI,蓝线是常规技术,图中的“外推区域”是训练数据之外的区域。
与传统技术的区别是显而易见的。新开发的人工智能成功地显着减少了首次遇到数据的区域的预测错误。
物理属性值(能量)的外推预测精度
您可以看到“外推区域”中的误差已显着减少
新开发的人工智能可在几分钟内预测 10,000 种分子特性
开发新材料的第一步是估计候选分子的特性。世界上有无数种可能的分子构型(原子的组合),而其中只有一小部分的性质是已知的。如果人工智能能够预测分子的特性,就可以提前缩小新材料候选范围,而无需进行耗时且昂贵的实验。
有一些方法可以在不进行实验的情况下检查分子的特性。该方法使用计算机根据物理定律模拟分子状态。然而,使用这种方法,研究一种简单的有机化合物可能需要数十分钟到几个小时。
Tsubaki等人开发的AI。立即减少计算所需的时间。只需几分钟即可预测 10,000 种不同分子的特性。事实上,它比计算机模拟快十万倍以上。
而且,随着物质分子变大,两者之间的差异也随之增大。在计算机模拟中,随着分子中电子数量的增加,计算时间会增加电子数量的三到四次方。例如,如果电子数量增加一倍,计算时间将增加2的3到4次方,即8到16倍。
即使分子尺寸变大,这种人工智能也能在短时间内产生结果,并且仅通过学习小分子的数据就可以准确预测大分子的特性。它是一项能够在短时间内发现以前无法获得的信息的技术,有可能给材料开发带来重大变革。
介绍量子物理知识
那么,新技术是如何弥补现有技术的缺陷的呢?
目前,人工智能借助深度学习技术,已经对比了大量的分子结构数据和性质数据,找到了结构和性质之间的“公式”。利用神经网络的人工智能可以形容为一个复杂而庞大的数学公式,通过适当调整这个公式的系数(参数)并输入分子结构数据,就会推导出输出特征数据的公式。换句话说,深度学习是一种不关心一路进展的方法,而是专注于确保数字与结果匹配。即使结果在训练数据的范围内是准确的,如果人工智能超出训练数据的范围哪怕一步,人工智能都可能会学到一个产生错误结果的公式。
因此,椿和他的同事决定将深度学习与输入和输出之间的中间过程中存在的理论关系结合起来。与理论关系的组合是基于量子物理学知识进行组合的,量子物理学知识也用于模拟以研究分子特性。首先,他们试图从人工智能的学习目标中排除可以根据物理知识快速、适当计算的部分,并通过深度学习最小化“数字匹配”部分,从而找到可以在广泛情况下使用的公式。
新开发的深度学习模型示意图
首先,注意从左侧化合物 M 到右侧物理属性值 E 的流动
请看上图。左上方的“化合物M”对应于分子的结构,右上方的“物性值E”对应于分子的性质。到目前为止,深度学习仅查看 M 和 E 数据并创建连接两者的公式。
然而,为了从物理上从M导出E,首先需要知道原子的状态(原子的波函数φ)和分子的状态(电子的波函数ψ)。椿等人。将量子物理学中已知的一个公式引入到这一部分。另一方面,根据分子的波函数ψ预测物性值E的计算极其复杂,所以这部分就留给深度学习AI(神经网络)。下一步是从数据中一次性学习物理公式的系数和AI的内部系数(图中的M→φ→ψ→E)。
即使您有中间结果,也要匹配您的答案
然而,仅仅将物理公式和人工智能结合起来仍然不够。这是因为,即使在学习了两个系数之后,该公式仍然有可能仅在狭窄的范围内有效。因此,椿和他的同事决定添加另一个约束,以确保物理公式确定为正确的形式。这是图表的下半部分。
根据量子物理学的知识,化合物分子中的电子密度(ρ)与分子的电学性质(电势V)之间存在一定的关系(霍恩伯格-科恩定理)。两者之间的公式可以使用深度学习的AI(神经网络)来表达。此外,可以使用简单的公式(平方和)从波函数ψ确定分子密度ρ。换句话说,可以创建用于根据化合物M预测电势V的公式(图中M→φ→ψ→ρ→V)。
通过添加基于量子物理知识的约束来提高深度学习模型的准确性
在这里,如果我们使用大量关于每个化合物 M 的势 V 有多少的数据,就可以从 M 中学习 V 的公式系数。因此,从化合物 M 计算分子波函数 ψ 的公式接近物理正确的方向。剩下要做的就是交替重复学习这个约束的路径和学习前面提到的寻找物理属性值的路径,图中的所有公式将逐渐接近正确。
如上所述,使用这种方法开发的人工智能可以准确预测物理属性值。另一个“答案检查”是您是否正确估计了用于约束的电子密度 ρ 。结果如下图。黄色虚线是模拟结果,红色线是AI输出。 AI输出成功捕获了模拟结果的特征,例如存在两个峰值。
乙烷和苯之间化学键的电子密度比较
通过模拟获得的电子密度(黄色)有两个峰值,新开发的深度学习模型(红色)能够重现这两个峰值。
5年阐明分子性质,10年阐明化学反应机理
这项技术仍有改进的空间。从电子密度和物性值的预测结果来看,两者都存在一定的误差,目标之一就是减少这些误差,使模型更加实用。一些材料分子有许多原子以复杂的三维排列结合在一起,可以通过在人工智能计算中包含有关此类结构的信息来改进这一点。
一个更困难的目标是将人工智能预测的分子特性扩展到当前能量之外。计算机模拟产生了多种特性,作为能量寻找过程的副产品。然而,对于利用深度学习的人工智能来说,只能知道最终的结果,大多数情况下并不清楚中间的进展代表什么。这就是为什么当前的深度学习学习模型被称为“黑匣子”,其内容是看不到的。
椿等人。相信AI学习后,除了能量之外的各种物理信息都被嵌入到模型中的参数(数值)中。我们目前正在研究根据该训练模型中的参数预测各种特征的方法。
除了每个分子的特征之外,人工智能研究还可以预测更高级的现象,例如开发的催化剂将在多大程度上促进化学反应或候选药物将如何与蛋白质结合。当被问到“看起来需要多长时间?”椿回答说:“物理学将在五年内完成,化学将在十年内完成,而生物学将超越这个时间。”物理学是阐明材料分子特性的过程。化学是指阐明涉及多个分子的化学反应的机制。在生物学阶段,主题是极其复杂的分子(包括蛋白质)之间的相互作用。
如此广泛的问题无法仅靠椿和一个小型研究小组来解决。椿本正在招募工业界和学术界的研究人员进行合作。他希望不仅能够融合催化剂和药物等应用领域专家的观点,还能够融合处理语言等不同学科的人工智能研究人员的观点。
使用人工智能的材料开发是一个激烈的战场,世界各地的公司和研究机构都在激烈竞争。如果我们利用我们独特的方法在这一领域取得巨大成果,不仅会给日本工业带来巨大利益,也会对世界产生影响。
椿本今天仍在继续开展研究,其目的不仅是让其通过产官学界合作创造的基础研究种子发芽,而且为日本企业的材料开发和药物发现做出贡献,并为物理和化学相关的许多领域带来变化。
信息/人体工程学领域
人工智能研究中心
机器学习研究团队
研究员
椿正志
椿正志
日本科学技术协会
信息/人体工程学领域
人工智能研究中心