公告/发布日期:2025/03/10

mile米乐官方网站 日语语音基础设施模型“Izanami”和“Kushinada”发布

-用少量日语语音数据即可构建高性能语音AI-

积分

  • 根据 60,000 小时的日语语音数据(包括丰富的情感表达)构建了两种日语语音基础设施模型
  • 模型易于改进的“Izanami”和具有更高情感识别和语音识别能力的“Kushinada”已向公众发布
  • 利用少量数据为语音AI的构建和传播做出贡献

概览图

使用日本语音基础设施模型“Izanami”和“Kushinada”构建语音 AI
通过使用从日语语音基本模型获得的语音特征表示,提高了由于训练数据量较小而导致性能较低的语音AI的性能


摘要

米乐m6官方网站(以下简称“AIST”)人工智能研究中心 Satoshi Miyama,研究组组长,绪方淳客座研究员是一位高绩效语音人工智能我们发布了两种可用于构建的日语语音基础设施模型“Izanami”和“Kushinada”。

语音基础设施模型是用于处理和分析语音数据的通用人工智能模型,用于语音识别和语音情感识别等方面的应用正在取得进展。构建基于语音的模型需要至少数千小时的目标语言及其使用场景的语音数据。但与朗读类型相比,对话等音频数据较少,对于包含丰富情感表达的对话音频,语音 AI 的性能不足。

这次,我们利用 60,000 小时的日语语音数据构建并发布了“Kushinada”和“Izanami”两种日语语音基础设施模型,这是有史以来最大的。该模型的名称取自日本神话,希望它能在未来扮演各种语音AI的创造者和支持者的角色。

“Izanami”可以使用用户数据轻松改进,“Kushinada”在日语语音情感识别和语音识别方面表现出高性能。通过这些,可以进行包括老年人的声音和情绪表达等在内的对话。教师数据,您也可以构建高性能的语音AI。未来我们还将致力于提高日语方言的语音识别性能。它预计将用于许多情况,例如改善由于地区和代际差异而导致语音人工智能性能恶化的问题,以及创建地方议会会议记录。

该模型基于AI模型发布平台Hugging Face(https://huggingfaceco/imprt)下载。


发展的社会背景

语音 AI,例如用于转录音频和分析演讲者情绪的语音识别,用于智能扬声器和会议转录。语音数据是复杂的数据,其特征会根据说话者、情绪、声学环境等而变化。如果播音员在安静的环境中朗读,则可以轻松获得训练数据。监督学习构建高性能语音 AI然而,对于具有丰富情感表达和各代人声音的会话语音的训练数据量不足,情感识别和语音识别的性能不足。在这种情况下,基于语音的模型作为可以分析语音数据的通用人工智能模型而受到关注。基于语音的模型没有训练数据自我监督学习构建利用基于语音的模型获得的通用语音特征表示,可以用少量的语音数据和教师数据构建高性能的语音AI,预计以此方式构建的语音AI将用于护理机构等场所。

 

研究历史

10080_10235自然的情感声音情感表演声音这次,我们收集了大约 60,000 小时的语音数据,是数据的 12 倍,并致力于开发日本语音基础设施模型“Izanami”和“Kushinada”。

“伊邪那美”的开发得到了 NEDO(新能源产业技术综合开发机构)委托项目“与人一起进化的下一代人工智能技术开发项目(课题编号:P20006)”的支持,“串田”的开发得到了 AIST 政策预算项目“物理领域的生成型 AI 基本模型的研究开发”的支持。此外,这一成果还得到了“大规模生成式人工智能研究开发支持计划”的支持,该计划提供了在一定时间内独家使用AIST ABCI20的特定部分(称为A节点的高性能计算节点)的机会。

 

研究内容

我们使用有史以来最大规模的语音数据(约 60,000 小时)构建并发布了日语语音基础设施模型“Izanami”和“Kushinada”。 “Izanami”和“Kushinada”可以应用于日语语音识别、语音合成和语音情感识别等应用,即使只有少量训练数据也可以构建高性能语音AI。图 1 显示了如何构建和使用日语语音基础设施模型的说明。

图1

图1 使用日语语音基础设施模型,可以用少量数据构建高性能语音AI

到目前为止,基于语音的模型主要使用英语语音进行训练,即使使用多语言语音进行训练,也仅使用少量日语语音。这些基于语音的模型不适合处理和分析日语语音和情感表达的特征,并且在语音情感识别方面的性能也受到限制。至于用日语语音训练的日语语音基础模型,目前已经发布了使用20000小时日语语音数据的模型。

这次,我们重点关注电视广播音频中包含的各种声音,作为日语语音基础设施模型的训练数据。新闻节目、电视剧等电视广播音频包括喜、怒、哀、乐等丰富情感表达的音频,以及各个年龄段的音频。在构建传统的日本音频基础设施模型时,仅使用电视广播音频的转录部分。这次,我们收集了约60,000小时的日语音频数据,这是有史以来规模最大的,并使用日语音频进行训练,构建了日语音频基础设施模型,包括难以转录的音频,例如表达强烈情感的音频。施工方法是“伊邪那美”wav2vec20“串田”休伯特“伊邪那美”是一种可以利用语音AI利用现场数据轻松改进的模型。另一方面,“Kushinada”在日语语音情感识别和语音识别方面表现出很高的性能。性能评估的结果是,在日本表演情感声音的语音情感识别(区分快乐/愤怒/悲伤/正常)中,“伊邪那美”的准确率为 8012%,“串田”的准确率为 8477%(表 1)。与不使用日语语音基础设施模型时的正确答案率 7065% 相比,这一性能提高了 10 个多点。我们还与其他日本型号的性能进行了比较,并确认了“Izanami”和“Kushinada”的性能更优越。

我们将发布“Izanami”和“Kushinada”两种类型的总共四种日语语音基础设施模型,它们在学习方法、表示模型越大的参数数量以及用于学习的语音数据量方面有所不同。表1显示了日本发布的语音基础模型的类型和语音情感识别的性能。

表 1

表1 发布的两种日语语音基础设施模型以及语音情感识别的性能

未来计划

为了改善语音 AI 之间的地区和世代之间的性能差异,我们正在致力于使用日语语音基础设施模型 [2] 来提高日语方言的语音识别性能。当使用“Kushinada”对日语方言会话语音进行语音识别时,作为语音识别性能指标的字符错误率为327%。我们已经确认,这一性能与使用目前可供公众使用的其他语音基础设施模型处于同一水平,可以说是迄今为止的最高性能。不过,考虑到识别标准日语语音的字符错误率低于 10%,性能仍然不佳。当“Kushinada”用于标准日语语音识别时,字符错误率为 109%,并且由于方言对话,性能下降了约 22 个点。未来,我们将构建新的方言语音数据集,致力于改善语音AI性能因地区和代际差异而恶化的问题。我们还将利用伊邪那美和串田与企业、大学等合作,为使用少量数据的语音人工智能的构建和传播做出贡献。

 

参考文献

[1] 出版物:日本声学学会第 150 届(2023 年秋季)讲座论文集
论文标题:日语语音情感识别自监督学习模型的研究
作者:泷泽大悟、绪方淳、智海学、佐藤浩

[2] 出版期刊:日本声学学会第 153 期(2025 年春季)讲座论文集
论文标题:使用大规模自监督学习模型进行日语方言的语音识别
作者:泷泽大悟、中村智彦、须田仁、宫山悟

 

哪里可以获得

日本语音基础设施模型“Izanami”和“Kushinada”是 AI 模型发布平台 Hugging Face (https://huggingfaceco/imprt)下载。


术语表

语音人工智能
分析和生成人类语音和对话的人工智能技术。其中包括语音识别(将语音转录为文本)、语音情感识别(从语音中识别情感)以及语音合成(从文本生成语音)。[返回来源]
语音情感识别
通过声音分析和识别说话者情绪的技术。分析语音的声学特征并估计说话者所感受到的情绪。[返回来源]
教师数据
指示与输入数据相对应的正确答案的数据。在语音情感识别中,诸如快乐/愤怒/悲伤/正常之类的类别被用作正确答案并与输入语音配对。[返回来源]
监督学习
一种机器学习方法,通过将输入数据与相应的正确答案(教师数据)配对来进行学习。该模型经过训练,可以针对未知输入输出正确答案。[返回来源]
自我监督学习
一种机器学习方法,通过隐藏部分训练数据来创建伪训练数据,从而在没有训练数据的情况下训练模型。您可以构建高性能模型,而无需准备大量训练数据。[返回来源]
自然情感声音/表演情感声音
自然情感言语是指在日常对话或自然情境中表达情感的言语。表演情感音频是配音演员或演员通过表演表达情感的音频。[返回参考源]
wav2vec20
美国 Meta Inc 开发的一种机器学习方法,可进行同时编码和预测语音的自我监督学习。[返回来源]
休伯特
美国 Meta, Inc 开发的一种机器学习方法,可进行自我监督学习,通过多步学习对对语音识别等有用的语音特征表达进行编码和预测。[返回来源]


联系我们

查询表