国立先进产业技术综合研究所 [会长:中钵良二](以下简称“AIST”)人工智能研究中心[研究中心主任:辻井淳一]欧姆信息研究小组和药物发现基础研究部[研究主任:龟山仁彦]同时AIST/早稻田大学生物系统大数据分析开放创新实验室[实验室:竹山]Haruko](以下简称电阻信息研究组和药物发现基础研究部 研究员 Yutaka Saito 生物过程研究部首席研究员 Michiji Kameda [研究部主任 Kaoru Suzuki] 应用分子微生物学研究组和 CBBD-OIL 北川 Wataru 生物技术领域首席研究员 [区域总监 Katsunori Matsuoka] Tomohiro Tamura,研究战略总监 CBBD-OIL 及其同事开发了一种基于信息技术的方法来设计基因序列,将其引入微生物中以提高蛋白质产量。
利用微生物进行材料生产在8671_8774|中,将外源基因人工引入目标微生物中,使其产生该微生物天然不具有的蛋白质。此时,为了提高目标蛋白的产量,需要适当设计要导入的基因的DNA序列(密码子优化)很重要。传统的密码子优化研究主要集中在研究大肠杆菌等微生物上,这些微生物很容易进行实验。放线菌,目前还没有既定的密码子优化方法。这次,我们通过从AIST的大规模蛋白质生产实验数据中提取规则,开发了一种新的密码子优化方法。放线红球菌中得到了证明。使用这种方法设计的基因序列仅在原始序列的开头包含突变,因此可以以较低的实验成本合成它们。新开发的技术已应用于医药、食品、环境等各个领域。生物制造预计会加速。
该结果发表于 2019 年 6 月 6 日(英国夏令时间)的一篇论文科学报告
 |
| 利用信息技术通过基因序列设计提高蛋白质产量 |
近年来,利用微生物生产物质已引起人们的关注,并且有多种应用,例如药品和功能性食品的原料以及生物燃料的生产。使微生物产生所需物质的一种方法是将源自不同物种的基因人工引入目标微生物中,从而使该微生物产生该微生物天然不具有的蛋白质。在这种情况下,为了提高目标蛋白质的产量,设计待导入基因的DNA序列的过程很重要。这种序列设计被称为“密码子优化”,因为它优化了DNA序列中的密码子使用模式,从而使蛋白质的氨基酸序列保持不变。
在传统密码子优化中,目标微生物内源基因中经常使用的密码子等方法引入的基因中的一些是有效的,但目前还没有太多的研究来根据大规模实验数据详细验证它们是否真的能有效提高产量。最近,此类研究已开始在大肠杆菌等细菌上逐渐进行,但尚不清楚这些研究结果是否可以应用于其他微生物,并且对于生物工业中用于材料生产的多种微生物,目前还没有既定的密码子优化方法。
放线菌的一种,红平红球菌(红平红球菌)是一种可以在4至35摄氏度的宽温度范围内生长的微生物,具有耐有机溶剂以及转化脂肪族、芳香族和杂环化合物的生物催化活性等许多特性。由于其特性与大肠杆菌等通用宿主显着不同,因此有望成为全球下一代宿主的候选者。然而,红平红球菌的密码子优化方法尚未建立,这一直是该微生物应用的障碍。
AIST 不断对红平红球菌在材料生产中的使用进行研究,并证明了其有用性和安全性。AIST 主要研究成果 2014 年 7 月 1 日)。特别是我们对大量基因进行蛋白质生产实验,拥有世界上最大量的红平红球菌数据。我们还进行了研究,通过分析大规模数据来提取有用的知识。这次,我们结合了 AIST 的这些优势,开发了一种新的密码子优化方法,也可以应用于红平红球菌。
这项研究和开发是在国家研究和开发机构新能源和产业技术综合开发组织 (NEDO) 的支持下,在其委托项目“利用植物和其他生物体开发高功能产品生产技术”的支持下进行的。
AIST 已确认红平红球菌 L-88 菌株是放线菌天蓝色链霉菌的不同种 (天蓝色链霉菌A3 (2) 菌株)的基因进行蛋白质生产的实验数据。该数据由204个基因的基因序列和蛋白质产量组成,并对这些进行了分析。与基因序列不同数组特征并评估蛋白质产量与序列特征之间的相关性mRNA二级结构形成程度和蔡的序列特征(密码子适应指数)显示与蛋白质产生高度相关。基于这些结果,我们开发了一种密码子优化方法,仅修改基因序列的前端,使其难以形成二级结构并提高CAI(图1)。在此方法中,使用以下步骤创建被认为是增加蛋白质产量的最佳序列。
(1) 在计算机上生成完整的基因序列(mRNA 序列),仅改变密码子使用模式,同时保持要产生的蛋白质的前 11 个氨基酸序列与原始基因序列相同。
(2) 计算从转录起始点到第11个密码子的二级结构形成程度以及每个基因序列开头的11个密码子的CAI。
(3)在所有序列中,从CAI高于指定阈值的序列中搜索最不可能具有二级结构的序列,并将其作为最优序列候选。
重要的是,AIST 持有的实验数据分析表明,基因序列的开始对于蛋白质生产非常重要。一般来说,每个氨基酸平均有3个密码子,因此,例如,对于由50个氨基酸残基组成的小蛋白质,具有不同密码子使用模式的整个基因序列是350≒72×1023序列的数量如此巨大,甚至不可能在计算机上创建数组(图 2)。由于这一成就,我们能够将密码子使用模式的变化范围缩小到基因序列开头的大约 10 个密码子,因此密码子使用模式发生变化的序列总数为 310我们能够将数字显着减少到≒59,000,使计算成为可能,从而可以开发这种可执行的方法(图 1)。
 |
| 图 1 使用新开发的方法进行密码子优化的概述 |
 |
| 图2 当对整个基因序列而不是开始部分进行密码子优化时 |
为了验证新开发的密码子优化方法的有效性,我们设计了12个基因的最佳序列(序列长度为100至400个氨基酸),将其导入红平红球菌中,并评估蛋白质产量。结果,在 9 个基因中(75%)野生型序列有所提高(表1)。特别是,对于野生型序列中蛋白质产量较低的所有 5 个基因,使用此方法设计的序列提高了产量(图 3;TetR 转录因子的示例)。该结果表明该方法对于难以生产的蛋白质特别有效。此外,该方法不仅对增加蛋白质产量有效,而且对减少蛋白质产量也有效。另外,在这些验证中,对于12个基因中的每一个,使用10种基因序列进行蛋白质生产实验3次(12个基因×10个序列×3次=总共360次实验)。这是一个比之前的密码子优化研究规模大得多的实验,通过该实验验证的方法的可靠性被认为是很高的。
 |
| 表1验证使用该方法设计的基因序列改善蛋白质产量的有效性的结果 |
 |
| 图3 通过序列设计提高表达水平的示例(通过蛋白质电泳进行表达分析) |
这种方法只修改基因序列的开头,而不是整个基因序列,所以在合成设计的序列时,全长基因合成使用突变引入引物的 PCR它的优点是能够通过简单且廉价的方法合成。此外,通过使CAI适应目标微生物,可以将其应用于红球菌属以外的各种微生物(例如大肠杆菌)的蛋白质生产。
我们将把新开发的技术应用于利用各种微生物生产蛋白质,以证明其有效性,并利用它来提高材料生产的效率。此外,由于它可以减少蛋白质的产生,因此我们将其开发为精确控制物质产生的技术。