- 开发了一种应用程序,可以在对物理属性数据保密的同时执行贝叶斯优化,并成功优化了磁性化合物的化学成分
- 信息泄露风险低的秘密共享技术与使数据失去计算意义的秘密计算技术相结合
- 预计将促进基于保密计算的数据共享,加速材料信息化
米乐m6官方网站 (AIST) 功能材料计算设计研究中心(以下简称“CD-FMat”)的深泽太郎研究小组使用了基于 AIST 网络物理安全研究中心理论上设计的方法的秘密计算贝叶斯优化
近年来,利用大量现有物理性质数据的机器学习寻找新功能材料的方法引起了人们的关注。为了提高该方法的效率,积累大量数据非常重要。
这次,我们开发了一种名为贝叶斯优化的技术,该技术在材料探索方面拥有良好的记录,可以在数据保密的情况下执行计算,并将其实施到应用程序中。这样信息泄露的风险很低秘密共享技术通过使数据无意义来计算秘密计算技术使用,并且可以在保护所使用的物理属性数据的机密性的同时进行计算。事实上,使用开发的应用程序,我们成功优化了磁体化合物的化学成分。
利用这项技术,当数据聚合在新材料探索基地时,唯一获得的物性数据不会泄露给其他人,降低了所有者共享数据的门槛。预计这将增加可共享的数据量并加速材料探索。
此结果的详细信息将于 2024 年 12 月 24 日(日本时间)公布。日本物理学会杂志发布
近年来,我们一直在利用大量现有物理性质数据的信息科学方法来寻找新的功能材料材料信息学正在引起人们的注意。这种方法利用机器学习等技术来快速高效地推进材料开发,与其他领域的人工智能技术一样,它需要大量的数据。不仅可以通过合并论文和专利中发表的数据,还可以通过合并在实验室规模上单独获取的数据来提高有效性。
但是,如果独立获取的数据与他人共享,则获取方的优势可能会丧失。为了避免这种情况,需要避免数据泄露的风险,让数据失去意义,以便用于“秘密计算”,并保护数据所有者的权利。保密计算技术正在材料探索以外的领域得到发展,有的甚至已经投入实际应用。然而,目前的秘密计算是线性回归等相对简单的计算,尚未在贝叶斯优化等使用复杂计算的材料探索领域得到实际应用。
AIST 正在推动利用 AI 的材料设计技术的发展,并致力于通过企业联盟等将其传播到业界。本案的问题是确保公司持有的数据的机密性。迫切需要技术发展和创建社会实施环境,使公司能够安全可靠地分发数据。因此,基于AIST网络物理安全研究中心通过日本科学技术振兴机构JST-AIP加速项目“使用机密计算的安全组织间数据协作技术的社会实现”开发的安全计算技术,我们目前正在开发一种“隐藏材料数据计算”方法来解决材料领域的问题,并为其创建一个平台。作为这项研究的一部分,我们开发了一种用于材料信息学的贝叶斯优化的机密计算技术,并将其作为模型案例应用于材料。
这项研究是由内阁府科学技术创新委员会的战略创新创造计划 (SIP) 第 3 阶段“构建材料商业化创新和培育的生态系统”(研究促进公司:国立材料科学研究所)进行的。
此开发基于使数据变得无意义然后分发它的秘密共享技术,以及在使数据失去意义的同时进行计算的秘密计算技术。需要保密的数据首先以本身没有意义的形式分布式存储(图1-①),然后被授权使用该数据的用户可以指示进行必要的计算,但数据不会被恢复,只传达结果(图1-②)。这种保密计算需要比普通计算更大的计算量,并且保持数据保密所需的通信量也增加。因此,为了执行复杂的计算,需要各种技术来提高计算效率。这些努力包括采用减少计算量和数据通信量的算法,以及以牺牲准确性为代价加快计算速度。为了使用这种方法开发出一款真正可以用于材料开发的应用程序,需要根据实际的材料探索来设置问题,并确保应用程序能够提供答案。

图 1 秘密共享和安全计算。 ① 秘密共享时,数据被分割成无法读取的状态,并以分布式方式存储。
② 保密计算时,按照计算指令只传递结果,中途不恢复数据。
*使用原始论文的引用和修改。
因此,在本研究中,作为实际搜索目标之一,我们选择了使用称为第一性原理计算的模拟方法获得的 132 种候选磁性材料,同时对数据保密磁化最高的那个。该应用程序使用称为贝叶斯优化的方法执行此任务。这里,我们将使用成分数据和物理属性数据进行搜索,但成分数据将被允许恢复,而物理属性数据将被保密。贝叶斯优化进行的预测考虑了基于现有数据的不确定性,并且可以使用它执行有效的搜索(图 2)。使用该素材搜索应用程序时,计算速度比不隐藏数据的应用程序慢,但大约需要 5 分钟才能完成计算,得出一个搜索候选。在这个任务中,我们发现我们可以在不到 10 次搜索中以 90% 的概率找到磁化强度几乎最高的搜索候选。这几乎与不隐藏数据的计算方法一样好。
此外,在本研究中,为了证明在保密的情况下共享数据可以提高搜索效率,我们进行了以下问题设置的基准测试:A公司从一组磁性材料数据中提供了三个磁化强度较低(=前景不佳)的数据点,而拥有不同数据的B公司同样提供了三个磁化强度不高的不同数据点(图3)。这些可以说是磁化强度方面不成功的数据,这样的数据称为负数据。两家公司不会自行披露这些数据,但会允许共享这些数据。

图 3 使搜索更高效的负数据。 A公司和B公司各提供3个低磁化点。基于搜索空间中靠近的材料具有相似材料特性的假设,负数据的存在具有缩小搜索范围的作用,从而导致更快的搜索。
经A公司和B公司同意的另一家公司C公司利用共享数据执行上述搜索最高磁化强度的任务。当C公司继续使用该应用程序进行搜索并添加新获得的数据时,发现搜索次数比没有数据共享时明显减少。在这项研究中,我们对 A 公司和 B 公司的数据尝试了 400 种不同的提供模式,在所有情况下,我们都在 7 次或更少的搜索后成功找到了磁化强度最高的模式(图 4)。这被认为是因为即使数据为负,“与材料非常相似的候选材料不会具有高磁化强度”的假设也能很好地发挥作用。 (图3)

图 4 图表显示搜索次数(横轴)和最大磁化强度的 90% 下限(90% 的试验得分大于该值)(纵轴)。对于机密共享数据,在所有情况下都在 7 次内找到了最高磁化强度,因此不会显示超出该点的数据点。
*原始论文中的数字被引用或修改。
这些结果表明,共享负面数据对于材料探索有用的概念是有效的,此外,此应用程序表明,它作为实际上可用于此类材料开发的东西是有用的,同时保持数据隐藏。
加快您的应用的速度,以处理更多数据和候选点。此外,在本任务中,我们仅将物理属性数据视为要隐藏的数据。未来,我们计划开发一个可以对成分数据等进行机密计算的应用程序,并构建一个以更高安全性处理数据的系统。该应用程序由 CD-FMat 运营材料设计平台的一部分今后,我们计划确认并提高其通用性,使其能够应用于磁性材料以外的材料,并通过共同研究扩大其用途。
已出版的杂志:日本物理学会杂志
论文标题:具有秘密共享的材料安全计算:贝叶斯优化方案及其性能
作者:深泽太郎、池上勉、川田正明、三宅隆
DOI:https://doiorg/107566/JPSJ94013801