日语

 

更新(月/日/年):2025 年 7 月 9 日

日语语音基础模型“Izanami”和“Kushinada”发布

―利用少量日语语音数据构建高性能语音AI―

 
研究人员) FUKAYAMA Satoru,团队负责人,OGATA Jun,合作访客,人工智能研究中心智能媒体处理研究团队

积分

  • 根据6万小时的日语语音数据构建了两种日语语音基础模型,包括丰富的情感表达。
  • 可轻松进行微调的“Izanami”和情感和语音识别能力更强的“Kushinada”现已公开。
  • 利用少量数据为语音AI的构建和传播做出贡献

新研究成果图

使用日语语音基础模型“Izanami”和“Kushinada”构建语音 AI
通过使用从日语语音基础模型获得的语音特征表示,提高了受训练数据量较小限制的语音 AI 的性能。


背景

语音 AI,包括用于转录语音的语音识别和演讲者情绪分析,用于智能扬声器和会议转录。语音数据是复杂的数据,其特征根据说话者、情绪和声学环境而变化。当播音员在安静的环境中朗读时,可以随时获得监督数据,并且可以通过监督学习构建高性能语音人工智能。然而,对于情感表达丰富的会话语音和各代人的语音,教师数据量并不充足,情感识别和语音识别的表现已经不足。在这种情况下,语音基础模型作为可以分析语音数据的通用人工智能模型而受到关注。语音基础模型可以通过自监督学习来构建,无需标记数据。利用通过语音基础模型获得的语音通用特征表示,可以用少量标记的语音数据构建高性能的语音AI,这样构建的语音AI有望用于疗养院等场所。

 

摘要

AIST 的研究人员发布了两个日语语音基础模型“Izanami”和“Kushinada”,可用于构建高性能语音 AI。

语音基础设施模型是一种用于处理和语音分析数据的通用人工智能模型,越来越多地应用于语音识别和语音情感识别。构建语音基础模型至少需要几千小时的语音数据,这些数据是基于目标语言及其使用场景的。然而,与单人语音相比,会话语音等语音数据稀缺,并且语音 AI 性能对于包含情感丰富表达的会话语音来说还不够。

我们使用有史以来创建基础模型最大规模的日语语音数据(60,000 小时)构建并发布了两个日语语音基础模型“Kushinada”和“Izanami”。这些模型以日本神话命名,希望它们能够成为未来各类语音AI的创造者和支持者。

“Izanami”可以使用用户数据轻松进行微调,“Kushinada”在日语语音情感识别和语音识别方面表现出高性能。即使只有少量标记数据可用,例如老年人的语音或包含情感丰富表达的对话,这些功能也可以构建高性能语音人工智能。未来,我们将致力于提高日语方言的语音识别性能。例如改善语音人工智能因地区和代际差异而表现不佳的问题,以及在地方议会中做会议记录。

模型可以从AI模型发布平台Hugging Face(https://huggingfaceco/imprt).

 

下载

日语语音基础模型“Izanami”和“Kushinada”可从 AI 模型发布平台 Hugging Face(https://huggingfaceco/imprt).

 



▲ 页面顶部