公告/发布日期:2019/12/10

mile米乐中国官方网站 构建并发布预训练模型,作为 AI 视频识别和文本理解的基础

-有望推动利用真实世界数据的下一代人工智能技术的开发和社会落地-

NEDO 和米乐m6官方网站,作为利用真实世界数据的下一代人工智能 (AI) 技术软件模块构建的一部分,构建并发布了一个预训练模型,该模型将作为生物技术领域 AI 视频识别和自然语言文本理解的迁移学习的基础。

我们这次构建的预训练模型是在大量真实视频和文本数据上进行训练的,因此将其用于 AI 开发,即使使用少量的训练数据,也可以构建和使用下一代 AI 软件模块。这有望促进利用现实世界数据的下一代人工智能技术的开发和社会实施,例如使用少量视频数据支持医疗视频诊断的人工智能。

NEDO和AIST将继续进行研究和开发,以提高每项要素技术的性能,并开发和发布新的要素技术模块。

图1
图1下一代人工智能核心技术研发概况及预训练模型定位


摘要

先进的人工智能(AI)技术将深度学习等机器学习技术应用于通过互联网上的各种服务收集的大规模数据,未来有望与物联网和机器人等技术相结合,应用于使用现实世界数据的服务,从而创建一个超级智能社会。

新能源及产业技术综合开发机构(NEDO)于2015年7月启动“下一代人工智能及机器人核心技术开发项目”,一直在进行先进AI核心技术的研发。其中,产业技术综合研究所(AIST)是下一代人工智能技术领域的核心基地。研发项目※1的委托,与大学和公司合作,研究和开发了能够与现实世界中的人类相互理解和协作的人工智能基本功能。我们还构建并发布了软件模块,将开发的人工智能基本功能实现为易于使用的程序。

这一次,作为成果的一部分,我们新开发了用于视频识别和自然语言文本理解的 AI迁移学习※2的基础预训练模型※3并于今天发布。

我们这次构建的预训练模型是在大量真实视频和文本数据上进行训练的,因此将其用于人工智能开发,即使只需要少量的训练数据,也可以构建和使用下一代人工智能软件模块。使用方法请参考AIST人工智能研究中心网站(https://wwwaircaistgojp/achievements/ja/) 的公共网页下载模型,并使用适合您的特定应用的数据进行额外的训练。如果您具有深度学习知识,则可以使用它(请参阅相应的网页以获取使用指南和许可证)。这有望促进利用现实世界数据的下一代人工智能技术的开发和社会实施,例如使用少量视频数据支持医疗视频诊断的人工智能。

NEDO和AIST将继续进行研究和开发,以提高每项要素技术的性能,并开发新的要素技术模块并逐步向公众发布。



此结果

[1]预训练模型构建和发布系统的建立

为了利用深度学习等机器学习技术实现高性能,需要使用高质量的训练数据进行大规模训练。然而,在现实世界中收集数据需要安装传感器和构建网络等成本,因此大规模数据收集并不容易。还有大量的数据,比如罕见疾病的医疗数据,数量极其有限。

因此,作为使用少量数据实现高性能的一种方法,重要的是使用迁移学习框架,该框架使用轻松收集的通用数据构建可用于通用目的的预训练模型,然后使用收集到的少量训练数据进行训练(图 2)。例如,对于静态图像识别,构成迁移学习基础的预训练模型是“ImageNet”(http://wwwimage-netorg/)。


图2
图2 预训练模型和使用它的迁移学习机制

构建这些预训练模型需要大量高质量的训练数据以及大规模计算资源来处理这些数据。因此,在现实中,只有少数大型IT公司能够构建预训练模型,而没有大规模计算资源的用户,例如大学研究人员,必须使用现有的公开可用的预训练模型,以便使用少量数据实现高性能。

这次,我们新创建了一个系统,允许我们使用大规模机器学习来构建和发布各种预训练模型,该模型利用 AIST 的 AI 云计算平台 ABCI。通过使用这些模型作为迁移学习的基础,预计即使使用少量数据,也可以构建高性能模型来解决各种单独的问题,例如医学视频识别和文本语义分析。


[2] 用于视频识别和自然语言文本理解的预训练模型

我们这次构建并发布的是视频理解和自然语言理解的预训练模型(图 3)。

构成视频理解迁移学习基础的预训练模型是使用 300,000 个带标签的短视频(Google DeepMind 的 Kinetics400 数据集)进行训练的,涉及 400 种日常活动,例如泡茶、画画和慢跑。该模型可用于识别人们在日常生活和运动中的行为。此外,通过使用该模型作为基础,并使用在个人环境中收集的少量训练数据进行迁移学习,有望应用于工厂和其他工作场所的工作监控以及支持工作的机器人。

作为自然语言理解的预训练模型,伯特※4是啊厄尼※5等,但这一次,我们在全球首次利用生物领域的大规模文本数据从头开始构建并发布了专门针对高需求生物领域的BERT。由于自然语言文本中的单词及其分布根据它们所代表的领域或主题而有所不同,因此这种针对特定领域的预训练模型被认为是非常有效的,并且可以提高从生物领域的科技文献中提取重要事件信息(例如酶反应信息等)的性能。此外,我们还发布了在 ABCI 上训练 BERT 的程序,可以通过准备训练数据轻松构建特定领域的 BERT。


图3
图3自然语言文本处理和视频图像处理的预训练模型及其应用

未来计划

除了这次开发的预训练模型之外,AIST 人工智能研究中心网站 (https://wwwaircaistgojp/achievements/ja/)。未来,我们将继续开发新要素技术的模块,并进行研究以提高各项要素技术的性能。此外,通过与大学和私营公司的联合研究,我们的目标是调整开发的模块以满足个人需求,并将其投入实际使用。



术语解释

※1研发项目
企业名称:下一代人工智能/机器人核心技术开发/下一代人工智能技术领域/能够与人类相互理解的下一代人工智能技术研发
实施期限:2015-2019年[返回来源]
※2 迁移学习
它是一种机器学习方法,利用学习一个领域或任务的结果来学习另一个相关领域或任务。利用之前的学习结果(训练好的模型),即使训练数据量很少,也能在后续的训练中获得稳定的学习结果。[返回来源]
※3 预训练模型
这是通过学习构成迁移学习基础的区域/任务而获得的经过训练的模型。在容易获得大量训练数据的领域/任务中训练的单个高度通用的预训练模型通常用于训练多个更具体的领域/任务。[返回来源]
※4 BERT(来自 Transformers 的双向编码器表示)
这是 Google 于 2018 年 10 月发布的用于自然语言处理的预训练模型。通过使用该模型进行迁移学习,我们在许多自然语言理解任务中取得了高性能,例如选择问题答案、句子分类和翻译。[返回来源]
※5:ERNIE(通过知识整合增强表示)
这是百度在 2019 年 3 月公布的自然语言处理预训练模型。该模型是针对中文等单词不以空格分隔的语言对 BERT 的改进,在中文处理任务上取得了比 BERT 更高的性能。[返回来源]
 



联系我们

查询表