公告/发布日期:2022/11/22

mile米乐中国官方网站 预测非翻译RNA表达的AI的开发

-通过基因组分析促进疾病了解-


RIKEN生物医学中心,应用基因组分析研究小组,特别研究员小糸大博士(研究时,现任东京大学前沿科学研究生院客座研究员,助理教授),团队负责人寺尾智文,副中心主任Piero Carninci(研究时),镰谷洋一郎,东京大学前沿科学研究生院 联合研究小组由米乐m6官方网站(AIST)人工智能研究中心客座研究员(Humanome Research Institute, Inc 总裁兼代表董事)Jun Zeze 教授领导,正在对 300 多种细胞和组织进行研究。未翻译的RNA[1]的表达仅来自 DNA 序列模式人工智能[2]

这项研究的结果预计将有助于寻找可用作药物靶点和生物标志物的非翻译 RNA。

与多因素疾病等有关多态性[3]集中在基因组的非翻译区域,但多态性对非翻译 RNA 表达的大部分影响仍然未知。

这个联合研究小组已经持续了几十年序列基序[4]回到分析,我们开发了一种人工智能,可以根据 DNA 序列模式预测非翻译 RNA 的表达,并将其命名为“MENTR”。FANTOM 联盟[5](FANTOM5)使用MENTR学习2014年发布的基因表达数据,前车之鉴全基因组关联分析 (GWAS)[6]的结果。由此,我们对10,000多个与多因素疾病等多种性状相关的非翻译RNA进行了编目,并阐明了极其罕见的多态性通过非翻译RNA影响哮喘等疾病发生的机制。 METR 是公开的,可供全世界的研究人员使用。

这项研究发表在科学杂志'自然生物医学工程''将以网络版发布(11月21日:11月22日,日本时间)。

概览图

使用新 AI (MENTR) 预测非翻译 RNA 表达及其在疾病研究中的应用


背景

使用来自数十万人的样本的全基因组关联研究 (GWAS) 已在世界各地积极开展,并已鉴定出许多与疾病易感性和复杂性状(例如身高、体重和血液检测值)相关的遗传多态性。越来越多的证据表明,使用此类遗传相关信息可以增加药物发现的成功概率,并且阐明多态性的生物学功能变得越来越重要。

迄今为止,研究表明,许多与各种复杂性状相关的多态性存在于基因组中不翻译成蛋白质的区域(非翻译区),它们不仅通过调节翻译成蛋白质的信使RNA (mRNA)的量,而且还通过调节从非翻译区(非翻译RNA)转录的各种RNA的量来影响性状的个体差异。为了阐明多态性在这些非翻译区域中的作用,我们需要一个数据库(目录)来全面编译多态性与组织中 RNA 量之间的关系。

然而,与 mRNA 相比,非翻译 RNA 与多态性之间的关联目录并不完整。特别是,通过激活远程控制 mRNA 表达的功能区(增强子)来转录的 RNA(增强子RNA:eRNA[7])在非翻译RNA中的表达水平特别低,并且难以通过实验进行定量。此外,即使DNA序列相同,eRNA也会根据细胞类型表现出非常不同的表达模式,这给需要用多种细胞进行实验带来了挑战。因此,虽然eRNA被认为广泛参与各种细胞功能,但阐明eRNA与多态性之间的关系却极其困难。

联合研究小组因此应用了人工智能技术(特别是深度学习[8])的研究方法。在这种方法中,人工智能用于学习基因组上特定的连续DNA序列模式(基序)与转录之间的关系,然后使用“计算机诱变方法”来预测当基序在计算机上被破坏时对转录的影响。在这项研究中,我们的目标是开发一种新的人工智能,能够正确学习 DNA 序列和非翻译 RNA 表达模式之间的关系,并预测由于多态性导致的非翻译 RNA 表达水平的细胞特异性变化,其准确性与实验诱变方法相当。

 

研究方法和结果

联合研究小组设计了一种 AI,它使用从公开的标准人类基因组序列获得的转录本周围 200,000 个碱基的 DNA 序列作为输入数据,并输出从该序列中心表达 RNA 的概率。CAGE 转录组数据[9]的表达模式。

此 AI 有两个主要阶段。第一阶段使用深度学习生成 2002 种 DNA 序列模式。表观遗传状态量[10](各种转录因子[4]等),并在第二步中梯度提升决策树[11]根据表观遗传状态量预测每种细胞类型是否存在 RNA 转录(mRNA 和非翻译 RNA)。学习后使用AI,从任何DNA序列(输入数据)输出每个细胞/组织的RNA表达概率。有趣的是,预测的 RNA 表达概率也与实际的 RNA 表达水平相关。此外,通过进行计算机诱变(观察 DNA 序列中添加突变时输出值的变化),可以预测突变导致的表达水平的变化。这种专门用于预测非翻译RNA的方法被称为“MENTR”。M注释E影响预测ncRNAtr注释)”。

首先,为了确认 MENTR 从 DNA 序列预测每种组织/细胞类型的非翻译 RNA 表达的准确度,我们使用与训练数据不重叠的评估数据来确认预测性能 (ROC 曲线下面积[12])。 FANTOM5收集并发表的347种不同类型细胞和组织的CAGE转录组数据中,mRNA为087±002(ROC曲线下面积的平均值和标准差,n = 347),长非编码 RNA (lncRNA)[1]预测精度为076±004,eRNA的预测精度为069±005,特别是lncRNA和eRNA的预测精度较传统方法显着提高(图1)。

图1

图1增强子RNA(eRNA)的预测精度比较
使用横轴所示的方法,使用相同的测试数据比较 FANTOM5 对 347 种组织和细胞类型的预测能力 (AUROC)。点是 n=347 的平均值,p 值是 Wilcoxon 符号秩检验(双尾)。由于其设计原因,传统方法(ExPecto)无法预测基因组正向或负向转录的 eRNA(这同样适用于其他传统方法)。所以期待平均取两个方向预测值的平均值,ExPecto更好,我们任意选择了表达更接近正确数据的那个,但是MENTR在所有情况下都表现出了更高的预测精度。导师线性是使用简单正则化线性模型而不是MENTR的梯度提升决策树的平均值,并且表观遗传状态的组合效应(非线性效应)未被学习。

此外,MENTR 对于 CAGE 转录组数据中预测为假阳性(即使在评估数据中没有表达但预测会表达)的转录本具有很高的检测灵敏度网笼[9]据透露,其中 31-70% 确实被转录。换句话说,MENTR可能能够正确预测由于实验原因而被CAGE未检测到的转录本,而且我们发现使用上述评估数据的预测精度实际上要高一些。

我们还试图阐明 MENTR 能够提高预测非翻译 RNA 准确性的原因,并发现 MENTR 强调远离转录本的细胞类型特异性表观遗传状态,并且考虑两种或多种表观遗传状态组合时的特殊效应(非线性效应)提高了预测非翻译 RNA 的能力。这一结果意味着以数据驱动的方式发现,非常遥远的表观遗传状态错综复杂地参与调节非翻译RNA的表达,并且是AI预测结果的解释与生物学知识非常一致的例子。

接下来,我们使用从 154 个类淋巴母细胞系的基因型和 CAGE 转录组结果估计的多态性效应(某种多态性增加或减少基因表达水平的效应)作为正确数据,验证了使用 MENTR 进行计算机诱变的表达水平变化(以下称为突变效应大小)的准确性。首先,我们表明,对于 mRNA 和非翻译 RNA,随着突变效应大小的增加,突变效应大小与真实数据中的多态性效应相匹配。这意味着突变效应大小的大小表明了预测的正确性。

此外,当在计算机诱变方法中使用与实验中使用的细胞系相同的细胞类型时,预测突变效应大小的准确性最大化。这表明基因表达控制机制是细胞类型特异性的,因此有必要了解细胞特异性的表达模式(图2)。我们还发现,为了达到突变效应大小与正确数据之间80%的匹配率,突变效应大小需要改变5%或更多,而为了达到90%匹配率的精度,突变效应大小需要改变10%或更多。我们能够确定一个与未来应用所需的精度相对应的阈值。

此外,不使用群体数据的 MENTR 的突变效应大小为连锁不平衡[13]的精确预测,与实验诱变方法的结果非常吻合,也不受连锁不平衡的影响。上述研究表明,MENTR 可用于以精确且细胞类型特异性的方式预测影响非翻译 RNA 表达的多态性。

 

图 2

图2 突变效应大小及其准确性
之前报道过 (M Garieri等。纳特·康姆相关的程度。 2017)可以复制(红线)。热图颜色(橙色到蓝色)表示类淋巴母细胞系与 FANTOM5 的 347 种细胞类型/组织之间 eRNA 表达模式的相关性,颜色越橙色,表达模式与细胞类型越相似。对于表现出完全不同的 eRNA 表达模式(蓝色)的细胞类型,与之前报告的一致率显着下降。换句话说,为了使用计算机诱变方法准确预测突变效应,学习细胞类型特异性表达模式至关重要。

接下来,我们使用 MENTR 来研究非翻译 RNA 如何影响复杂的人类特征。我们收集了在世界各地进行的各种复杂性状的 GWAS 结果,并使用 MENTR 的计算机诱变方法分析了总共 41,223 个多态性,发现 17,306 个(42%)多态性参与调节至少一种转录物(包括 mRNA)的表达水平(使用 80% 准确度阈值进行选择)。这一发现的可能性非常高,因为一般人群中只有百分之几的多态性达到了这个阈值。这一结果意味着改变转录本表达的突变在过去的GWAS结果中已经积累,并且与传统的众所周知的发现一致。

此外,受这些多态性影响的转录本包括 3,548 个 lncRNA 和 7,775 个 eRNA(总共 11,323 个)。由于大多数这些非翻译RNA(尤其是eRNA)的生物学功能尚不清楚,因此这项基于GWAS结果将非翻译RNA与各种复杂性状联系起来的研究结果(目录)有望成为未来的重要研究资源。

这是 MENTR 最新解读的 GWAS 结果的实际示例。某种多态性(rs17293632)是克罗恩病[14]相关联和哮喘(图3A),SMAD3据报道,它会影响基因 mRNA 的表达水平(图 3B)。然而,在这些基因组分析中,很难缩小致病多态性的范围,因为即使在真正的致病多态性以外的情况下,根据连锁不平衡,也会观察到低 p 值。另一方面,MENTR 精确预测(超过 90% 的准确度),即只有 rs17293632 才会减少与克罗恩病相关的结肠组织和与哮喘相关的免疫相关细胞中附近 eRNA 的表达(图 3C)。其实这个多态性SMAD3过去的实验已经报道rs17293632影响基因转录活性,rs17293632通过eRNA影响基因转录活性SMAD3调节基因mRNA转录活性的机制已得到证实。

图 3

图 3 METR 精确预测示例
(A) 连锁不平衡依赖性 GWAS 结果(从公共数据获得)。
(B) 连锁不平衡依赖性基因表达的数量性状位点 (eQTL) 分析结果(从 GTEx 数据库获得)。
(C) MENTR 的精确预测(本研究的结果)。

MENTR 对于解释非常罕见的多态性最为必要,因为没有证据表明多态性的作用。例如,据报道,世界上只有千分之一的人携带的罕见多态性rs570639864会降低脚后跟的骨密度,但目前尚不清楚这种多态性具体如何导致骨密度降低。有趣的是,MENTR 预计会降低许多细胞类型中附近一种 eRNA 的表达水平。根据之前的研究,该 eRNA 是WNT7B与基因 mRNA(此 eRNA)的转录活性存在相关性WNT7B被认为调节基因转录)和小鼠研究表明,WNT7B 蛋白作为信号转导器,促进骨形成。通过整合这些发现,我们能够获得多态性通过 eRNA 影响跟骨密度的生物学解释(图 4A)。

此外,据报道,罕见的多态性 rs12722502 可有效降低患哮喘的风险,MENTR 预测它会减少特定白细胞中 eRNA 的表达。根据之前的研究,这个 eRNAIL2RA已知与基因 mRNA 的转录活性相关,并且有趣的是靶向 IL2RA 蛋白单克隆抗体(达克珠单抗)[15]改善肺功能和哮喘(图 4B)。如上所述,通过使用 METR,我们发现可以解释罕见多态性通过 eRNA 与复杂性状相关的机制。

图 4

图 4 使用 METR 解释与复杂性状相关的罕见多态性的示例
红色:MENTR 的预测。蓝色:从 GWAS 获得的遗传关联。规则箭头表示+效应关系(增加),T形箭头表示-效应关系(减少、抑制)。

 

未来的期望

显示从 GWAS 获得的多态性与疾病之间因果关系的数据正在迅速积累,但只有有限的研究阐明了占 GWAS 相关区域大部分的非翻译区多态性增加或减少疾病发病风险的生物学机制。利用新的人工智能技术MENTR,仅根据DNA序列预测细胞类型特异性非翻译RNA的表达,就可以高精度预测由于多态性导致的非翻译RNA表达水平的增加和减少,从而可以进行有助于寻找药物发现靶点的生物学解释。目前,人数众多,数万至数十万。全基因组序列分析[16]目前正在进行中,预计 GWAS 将继续揭示许多与非翻译区域复杂性状相关的罕见多态性。因此,我们可以预期 MENTR 在药物发现研究和生物标志物发现中将变得更加重要。除了本次演讲之外,MENTR 还为多项研究中新知识的发现做出了贡献。注1-3),我们可以期待未来的进一步使用。

同时,“为什么 MENTR 能够仅根据 DNA 序列预测非翻译 RNA 的表达?”是本研究过程中出现的一个新问题。在这项研究中,我们以数据驱动的方式发现,非翻译RNA的表达是由远离转录起始位点的表观遗传状态的复杂(非线性)组合决定的。未来,如果我们能够通过对MENTR预训练的机器学习模型的详细分析,以细胞类型特异性的方式阐明非翻译RNA的表达机制,我们有望创造分子细胞生物学的新知识。

本研究主要使用的数据是FANTOM5在2014年发表的研究结果,但即使经过近8年,我们仍然能够获得对药物发现有用的新知识。通过充分利用 MENTR 等人工智能技术并重新分析之前积累的数据,我们可以期待创造新知识的研究不断取得进展。

MENTR 已发布在公共存储库 GitHub 上注4),本研究构建的目录注5)一起使用,世界各地的任何研究人员都可以使用它。

注1)米斯拉等人,中风遗传学为跨祖先的药物发现和风险预测提供信息。自然 (2022)
注 2) 2021 年 6 月 9 日新闻稿“特应性皮炎发展中的新遗传因素”注 3) 2021 年 8 月 19 日新闻稿“日本人与腹股沟疝(脱垂)相关的遗传位点的鉴定”注4)MENTR(对ncRNA转录的突变效应预测)注5)MENTR结果查看器
 

论文信息

<标题>
通过机器学习从基因组序列预测非编码 RNA 的细胞类型特异性转录
<作者姓名>
Masaru Koido、Chung-Chau Hon、Satoshi Koyama、Hideya Kawaji、Yasuhiro Murakawa、Kazuyoshi Ishigaki、Kaoru Ito、Jun Sese、Nicholas F Parrish、Yoichiro Kamatani、Piero Carninci、Chikashi Terao
<杂志>
自然生物医学工程
<DOI>
101038/s41551-022-00961-8


补充说明

[1]非翻译RNA,长非编码RNA(lncRNA)
DNA 转录的 RNA 中,信使 RNA (mRNA) 被翻译成蛋白质。与翻译成蛋白质的mRNA相反,不翻译成蛋白质的RNA的总称称为非翻译RNA。据报道,有多种类型的非翻译RNA在人类发育和体内平衡的维持中以组织和细胞类型特异性的方式发挥作用。在本研究中,我们主要分析了当远程控制基因表达的增强子被激活时,增强子区域的两端同时转录的增强子RNA([7])和200个碱基以上的长非编码RNA(lncRNA)。 lncRNA是长链非编码RNA的缩写。[返回参考源]
[2]人工智能
人工智能的缩写。这项研究特指机器学习,它是一种通过指定数据及其学习规则来学习变量之间复杂关系和规律的技术。[返回来源]
[3]多态性
在个体之间 DNA 序列不同的基因组部分中,那些在特定群体中以特定频率存在的部分。一个典型的例子是单核苷酸多态性(SNP),其中一个碱基被另一个碱基取代。[返回来源]
[4] 序列基序,转录因子
具有特定功能作用的 DNA 序列模式。例如,基因组上有许多位置与转录因子(与特定 DNA 序列结合并控制基因表达的蛋白质)结合,当比较这些结合位置的 DNA 序列模式时,经常会出现相似的序列。例如,成为 2019 年诺贝尔生理学或医学奖热门话题的缺氧诱导因子,已知与具有五个字母基序的区域(如 ACGTG 和 GCGTG)结合。序列基序一直被用作此类频繁模式的最小单位,但在本研究中,我们使用人工智能技术来搜索人类无法发现的长且复杂的序列模式。[返回来源]
[5] FANTOM 联盟
RIKEN 赞助的国际研究联盟 (https://fantomgscrikenjp/jp/)。在这项研究中,我们重新分析并使用了第5期(FANTOM5)发表的在各种人体细胞和组织中测量的CAGE转录组数据。[返回来源]
[6] 全基因组关联分析 (GWAS)
一种基因组分析方法,用于阐明遗传多态性与各种复杂性状(如多因素疾病和身体测量)之间的关系。 GWAS 代表全基因组关联研究。[返回来源]
[7] 增强子 RNA (eRNA)
增强子是控制基因表达的功能位点,远离转录起始位点,是提高转录效率的重要区域。不同类型的增强子在不同细胞类型中对相同的 mRNA 起作用。特别是,已知非翻译RNA是从激活的增强子的两端转录的,这被称为增强子RNA(eRNA)。据报道,FANTOM联盟5期(FANTOM5)已鉴定出65,000个eRNA,其中存在许多与周围多因素疾病相关的多态性。[返回来源]
[8]深度学习
它是机器学习方法的一种,也称为深度学习。通过重复称为神经网络的机器学习模型来实现高度准确的预测,该模型模仿生物的神经回路,在多层上创建各种特征,并应用各种技术使学习过程顺利进行。特别是,这项研究使用了深度卷积神经网络,该网络已用于图像识别。对于 DNA 序列,通过计算整个 DNA 序列上的局部信息(例如,三个连续碱基)的加权和来执行“卷积”以创建新特征。多次重复此过程(包括卷积)的深度学习模型称为深度卷积神经网络。[返回来源]
[9] CAGE 转录组数据,NET-CAGE
CAGE(Cap Analysis Gene Expression)是 RIKEN 开发的一种确定转录物 5' 末端碱基序列的方法。转录组是靶细胞、器官等中存在的所有转录本的集合或总体。换句话说,CAGE转录组数据是指通过CAGE测量的整个转录本的数据。 NET-CAGE(Native Elongating Transcript-CAGE)是一种利用生化方法快速、高度纯化当前正在合成的新生RNA的CAGE。[返回来源]
[10]表观遗传状态量
人们认为DNA甲基化和组蛋白修饰等获得性化学修饰参与基因表达的调节,并且是指这些化学修饰的激活程度(表观遗传状态)。众所周知,细胞表现出每种器官和细胞类型的特征模式。在这项研究中,我们使用了深度卷积神经网络输出的 2,002 个状态量,包括细胞特异性组蛋白甲基化和转录因子结合。 [返回来源]
[11]梯度提升决策树
一种机器学习方法,常与深度学习一起用于数据分析比赛。它基于一种称为决策树的简单机器学习方法,该方法允许考虑数据的非线性特征进行预测。[返回来源]
[12] ROC 曲线下面积
ROC(受试者工作特征)曲线是说明在执行某种分类时,当预测指数的阈值改变时灵敏度和特异性之间的关系发生变化的图表。绘制 1-x 轴上的特异性和 y 轴上的灵敏度。预测精度越高,曲线越位于左上方,因此以曲线下面积作为预测精度的指标。预测能力越高,ROC曲线下面积越接近1,如果是随机预测指标,则ROC曲线下面积为05。[返回来源]
[13]连锁不平衡
当观察某个群体中两个多态性的遗传类型时,发现两者之间不存在随机关系。由于连锁不平衡经常在附近的多态性中观察到,因此即使是致病多态性以外的多态性也可以获得关联(低 p 值),如图 3 中的 A 和 B 所示。由于 MENTR 不使用群体分析,因此可以查明与连锁不平衡无关的多态性的影响。[返回来源]
[14] 克罗恩病
一种难治性炎症性肠病。大肠和小肠可能发生炎症或溃疡。[返回来源]
[15] 单克隆抗体(Daclizumab)
针对活化 T 细胞上表达的人 IL2 受体 α 亚基(也称为 CD25)的抗体制剂。[返回来源]
[16]全基因组序列分析
使用下一代测序仪解码整个基因组 DNA 序列。[返回来源]
 

联合研究小组

理化学研究所
生物医学科学研究中心
基因组分析应用研究团队
团队负责人寺尾亲
特别研究员(研究时)小户胜
(现任东京大学前沿科学研究生院、医学信息生物学系、复杂性状基因组分析系客座研究员)
访问首席研究员 Yoichiro Kamatani
(东京大学前沿科学研究生院、医学信息与生物技术系、复杂性状基因组分析系)
客座研究员(研究时)石垣一义
(现任人类免疫遗传学研究小组组长)
副中心主任(研究时)Piero Carninci
(转录组研究小组组长)
基因组分析应用研究团队
团队负责人 Chung-Chau Hon
心血管基因组学和信息学研究团队
队长伊藤薰
特别研究员(研究时)小山聪
(现任麻省理工学院和哈佛大学博德研究所研究员)
RIKEN-IFOM 癌症基因组学合作研究小组
团队负责人村川泰弘
(IFOM癌症研究所、京都大学人类生物学高等研究所)
预防医学和基因组学应用开发部门(研究时)
开发组组长(研究时)川路秀也
(生物医学大容量数据技术研究组客座首席研究员)
基因组免疫生物学 RIKEN Hakubi 研究团队
RIKEN Hakubi 研究小组组长 Nicholas F Parrish
产业技术综合研究所信息工效部人工智能研究中心
客座研究员 Jun Sece
(人类组研究所总裁)
 

研究支持

这项研究得到了日本学术振兴会 (JSPS) 青年科学家科学研究资助金“用于识别多因素疾病中上位效应的基因组序列深度学习策略”(20K15773,首席研究员:Dai Koido)和基础研究 (A)“通过阐明增强子的基因表达控制进行免疫疾病分析”的支持(JP20H00462,主要研究员:寺尾日本风湿病学会(JCR)下一代基础研究推进计划研究资助“构建日本组织特异性基因表达和增强子图谱作为脊柱关节炎分析的基础”,日本医学研究和发展机构(AMED)疑难病实用研究项目“通过单细胞整合基因组分析阐明硬皮病的病理基础的发展” (JP21kk0305013,研发代表:寺尾近志),基因组医学实现推进平台/先进基因组研发项目“以先天性/后天性结构多态性为中心阐明免疫/精神疾病病理学的研究与开发”(JP21tm0424220,研发代表:寺尾这项工作得到了创新癌症医学实用研究项目的支持, “体细胞嵌合体作为癌症发病和预后因素的重要性的发展”(JP21ck0106642,研发代表:Tomokashi Terao)也是使用 AIST 的 AI Bridging Cloud (ABCI) 实现的。



联系我们

查询表