mile米乐m6(中国)官方网站v 歌声合成参数估计技术实现VocaListener

-通过“唱歌”，您可以合成具有更自然细微差别的歌声-

积分

如果你唱“我要你这样唱”并将其输入到 VocaListener，你就可以合成模仿这种细微差别的歌声
任何人都可以轻松合成自然的仿人歌声，无需像过去那样长时间手动调整歌声合成参数
即使切换歌声合成软件或其音源（歌手的声音），也能自动合成相同的演唱风格

摘要

国立产业技术综合研究所【会长：野间口佑】（以下简称“AIST”）信息技术研究部【研究主任：关口聪】媒体互动研究组后藤正孝，研究组组长，中野道康，AIST特别研究员歌声合成软件的合成参数。只需提供一个歌唱示例及其歌词即可。

　VocaListener 是一种使用市售歌声合成软件，通过模仿录制的歌声示例的演唱风格（音调和音量）来合成歌声的技术。此前，在尝试合成自然的类人歌声时，为了表达细微差别，在输入乐谱和歌词后，歌声合成参数许久。通过使用VocaListener实现乐谱输入和调整的自动化，调整时间显着减少，使得没有调整知识的用户也能轻松获得高质量的歌声合成结果。这使得用户在合成歌声时可以更加关注自己想要表达什么样的表情以及想要传达什么信息。

　为了实现VocaListener，我们开发了基于独特的迭代估计的歌声合成参数估计技术，提高了合成结果的质量，并且即使切换歌声合成软件或其声源（歌手的声音）也可以自动合成声音，而无需重新调整。当时我们还开发了高精度的歌词和歌声自动匹配技术，使得只需唱歌就可以合成歌曲，无需输入任何乐谱。此外，我们还开发了一项新技术，允许用户轻松微调合成结果。

目前，该研究成果已经开始投入实际应用，旨在广泛支持使用歌声合成技术的音乐制作。

发展的社会背景

　个人可以使用计算机等轻松合成的歌声合成软件是一种重要的工具，可以轻松地创作具有多种歌声的歌曲，并允许您按照创作者的意图控制歌唱表情。自2007年以来，喜欢使用市售歌声合成软件创作音乐的用户数量迅速增加，并且由于社会对扩大其使用范围的高度关注，各种媒体都对该软件的使用进行了报道。内阁府海外公关杂志《通过图像突出日本》2009年3月号（第2卷第11期，第24-25页）也介绍过（http://wwwgov-onlinegojp/pdf/hlj_img/vol_0020et/24-25pdf)所示，许多使用歌声合成软件的歌曲被发布在视频共享服务等上，不仅创作它们的用户数量增加，而且欣赏此类歌曲的听众数量也增加。然而，想要合成出像人一样自然的歌声是很困难的，需要适当的知识和耗时的调整，所以不是任何人都能轻易掌握的。

研究历史

　音乐是产业和文化的重要内容，涉及技术发展的音乐信息处理的重要性和进展正在迅速引起国内外的关注和积极研究。在AIST，我们多年来为以音乐声信号理解技术和应用该技术的音乐界面为中心的广泛研究和开发进展做出了贡献。特别是近年来，他专注于歌声，取得了歌声合成、歌声识别、歌手识别、歌声搜索、歌声评价等多种成果，并将这一广泛的研究命名为歌声信息处理这一新领域。

　这些研究成果的积累导致了一种新技术的实现，该技术可以通过模仿轻松地合成用户的歌声，并且即使在切换语音合成软件及其声源（歌手的声音）时也能自动合成相同的演唱风格。

　这项研究得到了日本科学技术振兴机构战略创意研究促进项目（CREST）的部分支持。

研究内容

　AIST开发了一种名为VocaListener（缩写为“Bokalisu”）的技术，可以调整歌唱合成参数，只需提供歌唱示例及其歌词即可合成模仿示例的歌声。它消除了以前需要的冗长的参数调整和乐谱输入的需要，并且可以轻松合成自然的、类似人类的歌声。 VocaListener具有以下三个特点。

1。基于迭代估计的歌声合成参数估计技术提高了合成结果的质量，并且可以通过在歌声合成软件及其声源（歌手的声音）之间轻松切换来进行合成。

　实现VocaListener的难点在于，即使将一个歌唱实例的歌唱风格（音高和响度）的分析结果直接作为参数输入到歌声合成软件中，合成的声音也不会具有精确的音高和响度。这是因为歌声合成软件通常具有通过剪切和粘贴许多短的声乐波形片段来生成合成声音的机制，并且以取决于上下文的非线性方式操作。因此，通过VocaListener，我们通过重新捕捉合成声音，对其进行分析，纠正不符合预期部分的参数，并重新合成声音，实现了高精度模仿歌声的歌声合成，就像一遍又一遍地练习发声一样。这样，即使您切换歌声合成软件或其声源（歌手的声音），参数也会再次自动调整以匹配新的声音，从而更容易合成各种歌声。

2。采用高精度歌词与歌声自动匹配技术，只需跟着歌词文本演唱即可创作歌曲，无需输入任何乐谱。

　通过自动关联歌唱示例中歌词的演唱时间和地点，可以估计歌词中每个音节的高度并将其转换为音符，以生成用于歌声合成的乐谱表达式。为了提高这种自动匹配技术的准确性，我们用音节符号标记了大量的歌声，并建立了我们自己的专门针对歌声的声学模型（学习了歌声独特的声学共鸣的模型）。这样一来，用户现在只需通过唱歌即可获得一串最佳时序的音符，而无需逐一输入每个音符及其音节并调整其时序，大大提高了便利性。

3。我们开发了一项新技术，允许用户轻松微调合成结果。

　在歌声合成中，即使是轻微的错误也会导致合成质量的恶化，而在音乐制作应用中，这些区域会给听者带来不适的感觉，因此希望能够轻松地纠正所有错误。例如，如果歌词和人声的自动匹配存在时间滞后，用户只需指出并发出警告，就会出现多个候选者，可以轻松选择来纠正错误。对于没有专业知识的用户来说，手动纠正音节边界可能很困难，但很容易听取候选者的意见并选择最接近自己想法的音节边界，因此这种基于识别错误的纠正技术很重要。此外，我们还创建了一个功能，可以让您指定不同的音高（音域）并进行合成，或者在用户的歌唱能力不足时进行修正和合成。

未来计划

　我们计划与业界合作，将本研究开发的歌声合成参数估计技术VocaListener商业化，广泛支持使用歌声合成的音乐制作，并开发可应用歌声合成的新应用案例。此外，由于该技术可以合成高质量、自然的歌声，因此它被定位为未来歌声信息处理研究的基本工具之一，这项研究的目的是有助于阐明诸如“什么是类人歌唱？”和“声音个性的来源是什么？”等问题。

查询

国立产业技术综合研究所
信息技术研究部媒体互动研究组
研究组组长后藤正孝
电子邮件：mgoto*aistgojp（发送前请将*更改为@。）

国立产业技术综合研究所
信息技术研究部媒体互动研究组
AIST 特别研究员 Michiyasu Nakano
电子邮件：tnakano*aistgojp（发送前请将 * 更改为 @。）

术语解释

◆歌声合成软件: 13141_13329[返回来源]
◆歌声合成参数: 合成歌声时使用的参数，例如音高和音量（指定在某个时间使用什么音高和音量等）。如果以与乐谱中的音符序列相同的音高来合成歌声，则会导致人类无法产生的不自然的音高变化，因此歌声合成软件通常会添加特定于歌声的各种特征，例如平滑变化。此外，为了表达细节的细微差别，用户可以单独指定和调整详细的时间变化，例如音高和音量作为歌声合成参数。[返回来源]

模仿用户演唱风格的歌声合成技术 [PDF:14MB]