公告/发布日期:2025/10/22

mile米乐中国官方网站 保存蛋白质功能预测

-结合分子模拟和蛋白质语言模型扩展训练数据-

积分

  • 使用分子模拟和蛋白质语言模型计算的功能值作为使用机器学习预测蛋白质功能值的伪训练数据
  • 即使在只有少量实验数据可用的情况下,也能实现高度准确的蛋白质功能值预测
  • 实现功能性蛋白质的高效开发

概览图

通过数据扩展提高蛋白质功能价值预测的准确性


摘要

米乐m6官方网站(以下简称“AIST”)人工智能研究中心 Teppei Deguchi 研究助理(东京大学研究生院研究生)、研究员 Kaito Kobayashi、Hiroshi Saito 特别研究员分子模拟蛋白质语言模型蛋白质的功能价值即使从少量的实验数据中也能获得高精度。

近年来功能蛋白的设计中,使用机器学习预测蛋白质功能的方法正在取得进展。然而,教师数据需要大量的实验数据,这会产生大量的时间和材料成本。因此,除了实验数据之外,使用计算值作为伪训练数据的方法正在引起人们的关注。到目前为止,它已应用于蛋白质稳定性的预测,但为了根据目的设计功能性蛋白质,有必要将应用范围扩大到包括结合亲和力和酶活性的预测。

这次,我们开发了一种预测蛋白质功能值的新方法,利用分子模拟和蛋白质语言模型计算的功能值作为伪训练数据。因此,即使使用少量的实验数据,我们也能实现高度准确的功能值预测。除了蛋白质稳定性之外,我们还扩大了应用范围,包括结合亲和力、酶活性、细胞毒性和荧光强度。这一结果使得比现有方法更有效地开发功能蛋白成为可能。

此研究结果的详细信息将于 2025 年 10 月 10 日发布。生物信息学简报


发展的社会背景

蛋白质是一种生物分子,在生物体中发挥着多种作用,例如像酶一样催化化学反应,以及像抗体一样识别特定分子。这些功能也广泛应用于工业和医疗领域。蛋白质由像链一样连接的氨基酸组成,通过修改这种排列(序列),可以创建具有改善的活性和稳定性等特性的功能性蛋白质。

为了有效地设计具有所需功能的功能性蛋白质,近年来,在开发利用机器学习预测蛋白质功能的方法方面取得了进展。具体来说,使用通过实验获得的功能值作为训练数据来训练模型,并针对给定的氨基酸序列预测功能值。然而,为了做出高精度的预测,需要大量的实验数据作为训练数据,这在时间和材料方面都会产生巨大的成本。

解决此问题的一种方法是扩展训练数据。除了通过实验获得的数据之外,还结合通过模拟获得的计算值作为伪训练数据来增强模型学习。到目前为止,它已被应用于预测蛋白质稳定性,但为了设计具有所需功能的蛋白质,除了稳定性之外,还需要将其应用于蛋白质之间的结合亲和力、酶活性、细胞毒性和荧光强度等性质。

 

研究历史

计算蛋白质功能值的典型方法是分子模拟,它在计算机上再现分子结构和运动,并预测其性质和反应。另一方面,近年来,将氨基酸序列视为语言并利用自然语言处理技术进行预学习的蛋白质语言模型也引起了人们的关注。该方法利用庞大的公开氨基酸序列数据库进行学习,无需使用实验数据即可计算蛋白质的功能价值。

AIST 一直在开展利用分子模拟提高蛋白质稳定性的研究[1],我们还开发了蛋白质语言模型的预学习方法,并利用蛋白质语言模型改进了酶的功能[2][3]这次,我们致力于开发一种新方法来扩展机器学习的训练数据,结合基于不同原理的方法:分子模拟和蛋白质语言模型。

这项研究和开发是基于 AIST 政策预算项目“物理领域的生成型 AI 基本模型的研究和开发”进行的。

 

研究内容

在用于蛋白质功能预测的机器学习中,蛋白质氨基酸序列对和实验测量的功能值被用作训练数据,以根据序列预测功能值。由于实验涉及的时间和材料成本,在许多情况下只能获得少量的训练数据(例如,100个或更少的序列)。因此,开发一种即使使用少量数据也能做出准确预测的方法已成为一个重要问题。

在本研究中,在这种情况下预测准确性使用分子模拟和蛋白质语言模型,我们为数百到数千个序列创建伪训练数据,并将其添加到传统实验的训练数据中,以提高预测准确性。这两种方法基于完全不同的原理:前者根据分子的物理定律计算结构和能量变化,而后者则利用从大量序列数据中学习到的人工智能来估计突变的影响。通过将两者结合起来,可以比单独使用两者进一步提高预测精度。此外,我们还开发并引入了自动调整伪训练数据可靠性的新加权算法和精度下降时避免使用伪训练数据的决策算法,创建了一个可以安全使用的系统。

例如,在对CYP2C9(一种酶)的反应活性预测问题的评估中,有50条实验数据,通过添加约4,600条基于分子模拟和蛋白质语言模型的伪训练数据,我们成功地将预测精度提高了约37%(图1)。我们还成功地将实验数据量减少了 87%,以达到相同的预测精度(图 1)。我们对 12 种蛋白质数据集进行了此类评估,并证明了我们的方法在预测结合亲和力、酶活性、细胞毒性和荧光强度等各种功能值方面的有效性。

图1

图 1 使用计算值扩展训练数据的效果示例。对酶 CYP2C9 数据集的预测准确性评估。
*原始论文中的数字被引用或修改。

未来计划

未来,我们将利用这种方法开发抗体和酶等功能蛋白,并证明其有效性。此外,我们的目标是使用该方法将功能性蛋白质设计系统商业化,并将其传播到大学和公司等功能性蛋白质开发领域。

 

论文信息

已出版的杂志:生物信息学简报
标题:通过分子模拟和蛋白质语言模型在弱监督下进行数据高效的蛋白质突变效应预测
作者姓名:Teppei Deguchi、Nur Syatila Ab Ghani、Yoichi Kurumida、Shinji Iida、Kaito Kobayashi、Yutaka Saito
DOI:101093/bib/bbaf536


术语表

分子模拟
一种在计算机中重现分子结构和运动并预测其特性的技术。[返回来源]
蛋白质语言模型
一种人工智能方法,可以像“语言”一样学习蛋白质氨基酸序列,并可以从大量数据中推断属性和功能。[返回来源]
蛋白质的功能价值
表示“功能有多强”的数值。例如,酶反应活性(酶活性)和抗体结合亲和力。[返回来源]
功能蛋白
具有对人类有用的功能的蛋白质,例如酶和抗体。预计它有医疗和工业用途。[返回来源]
教师数据
充当 AI 学习“模型”的数据。在蛋白质研究中,使用成对的“序列”和“功能价值”。[返回来源]
预测准确性
该指标显示 AI 生成的预测结果与实验中测量的实际功能值的匹配程度。数字越高,越准确。[返回来源]
 

引用

[1] Shin Irumakawa、Kaito Kobayashi、Yutaka Saito、Takeshi Miyata、Mitsuo Umetsu、Tomoshi Kameda、Ryoichi Arai。四螺旋束二聚体从头蛋白质的合理热稳定性。科学报告,11(1):7526,2021。doi:101038/s41598-021-86952-2。
[2] 山口英树,斋藤丰。用于基于 Transformer 的多域蛋白质变异效应预测的 Evotuning 协议。生物信息学简报,22(6):bbab234,2021。doi:101093/bib/bbab234。
[3] Takuma Matsushita、Shinji Kishimoto、Kodai Hara、Hiroshi Hashimoto、Hideki Yamaguchi、Yutaka Saito、Kenji Watanabe。通过机器学习方法增强含黄素单加氧酶的功能。ACS 催化,14(9):6945-6951,2024。doi:101021/acscatal4c00826。


联系我们

查询表