带来变革的想法必定处于研究的前沿。日本最大的公共研究机构之一 AIST 的官方网络杂志。

AIST 杂志 > 合作 > [Nazology x AIST 杂志：研究人员解决未解之谜]“初音未来也是一个研究对象！研究创造未来的音乐体验”

[Nazology x AIST 杂志：研究人员解决未解之谜]“初音未来也是一个研究对象！研究创造未来的音乐体验”

[Nazology x AIST 杂志研究人员正在解开未解之谜]“初音未来也是一个研究课题！研究创造未来的音乐体验”

发布于 2024 年 2 月 21 日
Nazology 编辑部 Ken Uminuma 的采访和文字

有些人可能会有这样的印象：技术研究是专业且困难的。
然而，新技术也活跃在我们周围的娱乐世界中。
例如，在过去，音乐被记录在唱片、盒式磁带和CD等媒体上，并且聆听它们是很常见的。然而，现在几乎所有音乐都已数字化，来自世界各地的数千万首歌曲现在可以在互联网上通过固定费率服务随意收听。
这本身就是技术带来的重大变化，但当任何人都可以访问大量数字音乐时，无论是创作音乐的人还是聆听和享受音乐的人都将拥有与以往完全不同的互动和享受音乐的方式。
连接到虚拟空间的新音乐会，例如虚拟现场表演，从大量音乐中找到您最喜欢的歌曲的方法，以及轻松创建需要大量时间的音乐视频的方法。这些与娱乐相关的技术并不是突然发展起来的，而是感谢研究人员几十年来为期待科幻小说般的未来而准备的。
在 Nazology 和 AIST 杂志之间的第二个合作项目中，我们将听到日本国立先进工业科学技术研究所 (AIST) 首席研究员 Masataka Goto 的发言，他是此类音乐体验未来的先驱。
研究人员将如何看待未来以及他们将创造哪些新的、令人兴奋的音乐体验？

这篇文章是一个增加喜欢科学的人数的媒体。自然学自然学文章点击此处！

让我们一起体验“更主动地享受音乐”的未来音乐体验！

--后藤先生研究小组的工作在各地都有介绍，我想很多人可能都以某种方式接触过。在NicoNico动画的NicoNico百科全书上，有一个名为“AIST P”的Vocaloid P（制作人），里面的人就是后藤先生的研究团队。

转到是的。我们从未称自己为“AIST P”，但在 2008 年我们开发了一项技术，可以让初音未来通过模仿用户的歌唱风格来自然地唱歌“VocaListener”“[初音未来]序言[Bokarisu]””。

――当这个消息宣布时，我还记得一边笑一边想，“哇！”初音未来以非常人性化的方式唱演歌的视频“[初音未来]伟大的渔船[Bokarisu]”除此之外，很多人可能都知道后藤先生是初音未来的研究者，因为他发表了各种与 Vocaloid 歌曲和 Nico Nico 动画相关的研究。

　科幻小说《南极的码头同行视频》中还有一个名叫“AIST后藤”的角色，是以初音未来为原型的。

转到是的，我对此感到非常高兴。后来我得知此事时感到很惊讶，因为我事先没有被告知此事。

科幻小说《南极码头同行视频》中出现了一个名为“AIST Goto”的角色 — 科幻小说《南极Pier Peer视频》中出现了一个名叫“AIST后藤”的角色

——嗯，不知不觉中就出现了（笑）

转到有一天，我看到一条推文（发布在 Twitter 上），让我觉得自己置身于科幻小说中。当我买了它并阅读它时，我惊讶地发现“AIST的后藤”作为主角之一出现。我在日本信息处理学会认识了作者野尻教授，我想他可能知道即使未经许可我也会很高兴（笑）。

- 后藤先生，您有如此独特的故事，但是您的研究领域是什么？

转到我正在做很多事情，但今天我要讲的是“音乐信息处理”的研究领域这是一个利用计算机处理音乐各个方面的领域，也是我从学生时代起就一直从事31年并且非常热爱的研究领域。

　它的领域非常广泛，包括音乐发行、歌曲搜索、刚刚成为热门话题的歌声合成，以及对欣赏音乐的人和创作音乐的人的支持。

　这次，我特别想重点讨论“音乐理解技术”，即计算机分析音乐，并讨论音乐信息处理的力量如何使这些有趣的事情成为可能。

--先生后藤的研究已作为网络服务提供，并且已经有许多有趣的结果可供读者立即访问。

转到没错。我们的目标是建立一种不仅仅是写论文的研究方法。当我们想到用技术的力量开启未来时，我们自然会通过与企业合作来实现这一点，但我们也正在接受挑战，让我们的研究人员自己研发网络服务和平台并将其发布给公众，以便每个人都可以尽快使用最新技术。

---我之前看到了很多东西，但是任何人都可以通过连接到 URL 来访问网络服务。所以，在这里，作为网络文章的一个强项，我想先让读者体验一下后藤先生和他的同事发表的一些研究成果，让他们惊讶地说：“哇，这太棒了！”然后我想谈谈里面的技术和研究。

　我对你们向我展示的服务以及制作带歌词的PV是多么容易感到惊讶。

转到“文字活跃”是的。这是歌词视频（歌词动画）制作支持服务。歌词视频是显示歌词随着音乐跳舞的动画的视频，是近年来经常出现的流行作品。

*“TextAlive”链接点击此处体验
注意音量
（点击图片底部的样式按钮“可爱”或“渐变”即可更改歌词动画。您还可以使用右侧菜单（智能手机上位于页面底部）自由更改歌词字体。）

转到此处显示的歌词视频不是现有视频，而是由运行在网络浏览器上的程序实时生成的视频。这样您就可以在查看时进行编辑。这与在 YouTube 等上播放视频是完全不同的体验。

通常，创建歌词视频需要花费大量精力，因为它需要手动设置歌词每个字母的时间并添加方向。但如果你使用TextAlive，电脑会分析音乐并自动设置歌词的显示时机等您可以轻松创建各种歌词视频。

--当我看到这个的时候，我以为它可以用于现场表演，但事实上，这种 TextAlive 技术已经被用于在初音未来的现场表演和 PreCure 的现场表演背景中播放的歌词视频中。

转到是的。例如，初音未来官方现场表演“SNOW MIKU LIVE! 2018”期间屏幕上播放的歌词。

转到PreCure 是 VR 空间中的虚拟现场，但最近VR 直播制作中的使用示例增加了。当然，各种创作者也在TextAlive上发布原创歌曲和PV。

2023/12/9-10
「 #光之美少女虚拟世界
TextAlive，我们的歌词视频制作支持服务https://tco/BjgT4XYrW1创建视频的方法被使用
今天发布了视频和静态图片！https://tco/IqGNtN7ilb #TextAlive pictwittercom/bwyNooyH3g
— 后藤正孝 / 后藤正孝 (@MasatakaGoto)2024 年 1 月 16 日

--我想很多人此时仍然感到惊讶，但“TextAlive”本身已经是很久以前的事了，从那时起你就一直在尝试新事物。

转到是的。您可以使用 TextAlive 编辑各种内容，但最终结果是视频。但我们相信，在未来，每次不同的互动体验将成为常态。因此，我们提出了一个新的概念，称为世界上第一个“歌词应用程序”作为下一代歌词视频。这是一款歌词随着音乐及时移动的音乐应用程序，我们开发并发布了一个平台（API），允许程序员自由开发它。

　例如，您可以用它做的事情是，当您用鼠标跟踪屏幕时，您可以体验歌词跟随并相应显示的音乐。根据用户移动鼠标的方式，歌词出现的方式完全不同，因此与PV不同的是，同一个屏幕永远不会显示两次，让您享受自己的个性化制作。

――您可以在智能手机上用手指描画来玩此游戏。

转到是的。任何人都可以在计算机或智能手机上免费试用。光是看你可能不会注意到这一点，但当你亲自触摸它时，这是一种非常有趣的体验。所以我希望人们能够真正触摸到它，感受到这就是未来的音乐体验。

*链接到“Lyric App”，点击此处试用
（打开链接时，会出现纯白色屏幕，因此点击（点按）白色屏幕即可启动应用。请勿触摸右下角的小视频屏幕）

歌词应用程序屏幕。点击图片体验该应用 — Lyric 应用屏幕。点击图片体验该应用

--歌词会随着声音出现在你所描画的地方，感觉与仅仅聆听完全不同的体验。还利用该技术举办了一场编程竞赛。

转到我们只是在幕后，因此我们正在创建一个 API 并提供它，以便每个人都可以开发 Lyric 应用。那“TextAlive 应用 API”从 2020 年到 2023 年，有四次。应用程序层出不穷，连我们自己都感到惊讶，并吸引了各种各样的人。

　大赛官方网站上，4年多的获奖作品共40件（2020、2021、2022、2023) 现在可以在您的计算机或智能手机上玩，所以请尝试一下。我认为这真的很有趣，给人们一种未来感，让他们思考，“哇，这就是音乐的力量。”

＼📢通知／
“初音未来“Magical Mirai 2023”编程大赛”10 名获奖作品已决出✨🎉https://tco/cvaqVPwAXD

从今天开始，我们将开始对 Mikunavi 进行最终筛选投票！投票支持你喜欢的作品😉#神奇未来 2023 #mm2023procon
— 初音未来 Magical Mirai 官方 (@magicalmirai)2023 年 8 月 11 日

――我想我想让你了解一些东西。

转到好吧，只是为了让您明白它与抒情视频完全不同，例如，在 2023 年获奖作品中，第 2 名的《抒情球》很容易演奏，我明白了！我想你能理解这一点。

*尝试“利里库球”

――啊，太棒了。歌词像弹球一样弹出。它甚至还有一个分数。真是不可思议的感觉（笑）没想到会是这样。

转到此外，大奖颁给了第 6 号参赛作品“Miku SNS”，该参赛作品在每行歌词演唱时都会显示在 SNS 发布屏幕上。你不仅可以为每条歌词帖子“点赞”和回复，还可以自己自由发帖。

*尝试“Miku SNS”

――有趣！这太棒了！

转到此外，回复歌词帖子的其他 SNS 用户也有他们的个人资料设置，当您点击他们时，您可以看到他们过去的帖子。制作精良。

---这看起来像是在PV中看到的东西，但它也可以像真正的SNS应用程序一样使用。这是一个真正触及未来的PV。

转到另外，如果您有相机，请尝试荣获优秀奖的第 9 号参赛作品“口述歌词”。

　如果您在网络浏览器中启用摄像头，歌词就会从您的嘴里出现在屏幕上。弹出的歌词的字体大小会根据你张嘴的大小而变化，当你尝试时，你会发现这将是你人生中的第一次音乐体验。

*尝试“口述歌词”

――这真的很有趣！这绝对感觉像是未来。您可以在这个网站上玩一整天。

转到还有许多其他精彩作品，请尝试一下。

　我们有信心歌词App的概念在未来会变得流行，也相信程序员在这里提交的创新作品未来也将改变形式，成为司空见惯的音乐体验。所以，对于现在体验过Lyric应用程序的人来说，当这个想法将来流行起来时，你就会知道那次编程大赛的作品是世界第一！你可能会这样记住它。

--我想现在你已经可以理解，对创造未来音乐体验的技术的研究是令人惊叹的，但到目前为止我只是让你瞥见后藤先生的研究来了解这篇文章的内容，现在我想问你他们是如何能够做到这样的事情的。我想向您询问一下这项研究的内容。

计算机自动分析音乐的“音乐理解技术”研究

--我的印象是用计算机处理音乐是一个相对较新的领域，但是这种音乐信息处理研究是什么时候开始的？

转到事实上，音乐信息处理的研究有着悠久的历史，始于 20 世纪 40 年代和 1950 年代，大约与计算机的发明同时期。

——嗯？它已经存在那么久了吗？你当时在做什么？

转到早期，人们进行了许多自动作曲的尝试，随后诞生了现代音乐制作所必需的技术，例如合成器等数字乐器和数字录音环境。

　最初，它是作为一些音乐家使用的技术进行研究的，但随着 20 世纪 80 年代和 90 年代计算机在家庭中的普及，它成为了以音乐为爱好的人们使用的技术。当时我也在电脑上玩弄音乐。

---啊，我感觉就是从那时起我开始听到桌面音乐（DTM）这样的词。不过，却给人一种相当狂妄的感觉。

转到后来到了20世纪90年代后期，音频压缩技术MP3开始流行，2000年后MP3播放器和音乐发行开始流行，风气彻底改变，电脑成为普通人享受音乐的家常便饭。

――确实，第一代iPod于2001年10月发布。我觉得年轻人已经开始告诉我，我在iPad上写字是错误的。

转到所以说，它有着悠久的历史，但直到2000年以后，音乐信息处理才作为一项社会必需的技术而被广泛应用，此后的20年里，世界各地的研究人员数量不断增加，该领域已成为一个又一个大型研究项目纷纷启动的领域。

　这样，所有的音乐都被数字化了，创作、传播和聆听都变得司空见惯。

---这就像听说漫画都是手绘的，但现在鸟山明也用数字方式绘制了。

转到但是，您可以访问的歌曲数量也因此变得巨大。过去，你只能听CD店陈列的音乐，或者电视、广播、现场表演中播放的音乐，但现在我们可以随时随地聆听数十万到数千万首过去的歌曲。

　虽然能够听这么多音乐很高兴，但仅通过搜索您知道的歌曲名称或艺术家姓名无法找到您喜欢的音乐。如果大家都放弃搜索，只听上榜的热门歌曲，就会出现听不到适合某人口味的新歌的问题，音乐多样性就会丧失。而且，可访问的歌曲数量不断增加，因此未来发布的新歌曲越多，丢失的可能性就越大。

--确实，与搜索电影不同，搜索音乐时没有太多视觉线索，而与电影和小说相比，线索数量巨大。现在我们可以使用的歌曲数量已经增加，除非我们改变搜索和收听歌曲的方式，否则我们发现新歌曲的能力将受到限制。

转到因此，未来有必要以某种方式改变这些大量的音乐，以便更容易遇到。科技的力量过去改变了人们的音乐体验，我们希望科技的力量在未来也能为我们提供帮助。

--我明白了。随着音乐变得数字化并成为海量数据，我们与音乐互动的方式将不断改变。这也与我们一开始所看到的未来音乐体验有关。

转到为此目的对音乐信息处理的研究已经产生了各种成果，但特别是，我已经在“音乐理解技术”上工作了31年。

　音乐是一种由各种声音混合而成的声学信号，该技术的基本部分是使用计算机自动分析音乐的内容并提取各种音乐元素，例如旋律、低音、节拍、合唱、鼓和和弦进行。

　虽然人类可以通过聆听来理解它，但计算机很难自动找到它。

--我们确实经常说“这首歌的副歌很棒”，但当人们问我们“副歌是什么？”时，我们只能含糊地回答，比如“最激动人心的部分……？”当然，机器无法理解这些细微差别，我无法想象如果我试图让机器理解合唱我会做什么。

转到大约 20 年前，我认为可以自动检测此类合唱并使用结果做一些有用的事情，因此我开发了一个用于听音乐的系统"SmartMusicKIOSK"

　顶部的橙色部分代表重复合唱团，其他绿色部分代表除合唱团之外的重复结构。每个部分都是一个按钮，点击即可播放。右下角还有一个“合唱开始”按钮，因此您可以立即收听合唱，而不是从歌曲的开头开始。这在试听一首歌曲时非常方便，可以从众多歌曲中找到自己喜欢的一首，如果您喜欢副歌部分，还可以听整首歌曲。

——我明白了。这和我之前提到的从海量的音乐中找到自己喜欢的歌曲的故事有关。

转到该系统是世界上第一个即使在调性或伴奏发生变化时也能找到流行音乐中重复合唱的系统。从技术上讲，这是相当令人印象深刻的，但困难在于，如果音调因调性变化而变化，或者如果歌曲的伴奏发生显着变化，则声学信号就会变成完全不同的东西。通过处理这个问题，我们能够找到歌曲中的重复并检测合唱。

--我之前提到过，当你听到副歌时，你可以理解它，但你不知道它是什么。你是如何让计算机理解副歌的？

转到在 SmartMusicKIOSK，我们专注于歌曲的重复结构，因为仅仅因为音量很大或旋律很高并不意味着它是合唱。在上一个屏幕上，有各种重复的绿色部分，但首先我们会发现它们作为潜在的合唱。接下来，假设副歌是歌曲中最想听到的部分，因此被重复次数最多，我们高度评估该部分的副歌相似度。此外，合唱还具有结构特征，例如在某个重复部分内以一半长度重复两次以上的部分，以及出现在长重复部分（例如歌曲的第一节和第二节）末尾的重复部分，这些部分经过处理以提高合唱般的质量。

　在确定合唱部分时，我们会考虑各种因素。

--当然，与搜索栏不同，这使得歌曲的内容更容易理解、更容易聆听。

转到没错。以前，只显示一个空的搜索栏，如下所示。如果这是您第一次听到一首歌，您将不知道结构是什么或在什么位置发生了什么。

传统的搜索栏不会告诉您有关歌曲结构的任何信息。 — 传统的搜索栏本身并不能告诉您有关歌曲结构的任何信息。

　通过使用 SmartMusicKIOSK 可视化歌曲中的重复结构，即使是平时不太注意结构的人也会变得更有意识并想知道，“这里发生了什么？”

　例如，您可以立即看出这首歌有五个副歌。另外，请注意副歌开头的歌词。

使用 SmartMusicKIOSK 加深您对歌曲结构的理解。如果您点击图像，您可以实际聆听这首歌并观看其解释。 — SmartMusicKIOSK 可帮助您更好地理解歌曲的结构。如果您点击图像，您可以实际聆听这首歌并观看其解释。

*显示在 SmartMusicKIOSK 上收听上述歌曲的链接

　如果你只点击副歌并按顺序听，第一副副歌是“春天的颜色是你的颜色~”，当你跳到下一个副歌时，你正在唱“夏天的颜色是你的颜色~”。如果发生这种情况，我们可以预测未来的发展。

――没错。你在歌唱季节。因此，看来“秋天”和“冬天”还将继续。

转到如果你真的听之后的副歌，你会听到“秋天的颜色是”和“冬天的颜色是”但是，当这种情况发生时，我想特别感兴趣地听它，想知道第五首歌是关于什么的。当你播放它时，它会说“你的色彩遍布全世界”，即使是平时不怎么关注歌词的人也能加深对这首歌的理解，心想：“哇，这首歌是作词者写的。”

――感觉你确实能看到这首歌的故事。

转到像这样用 SmartMusicKIOSK 听音乐是非常清爽和有趣的，当我在 2002 年开发出它时，我很高兴我迷上了它，并在查看各种歌曲的合唱检测结果的同时玩了几个小时。

---能够玩上几个小时制作的东西真是太好了。毕竟，技术研究员的工作就是第一次用自己的双手创造出自己想要的东西，但这种东西在这个世界上还不存在，所以我感受到了其中的乐趣。

转到在尝试各种歌曲时，我发现当我在技术的帮助下，一边听一边交互式地改变歌曲的播放位置时，我理解音乐的能力就会增强，就像前面歌词的例子一样。换句话说，我理解音乐的能力可以通过技术的力量来扩展。出发点是为了方便尝试很多歌曲，但是当我们利用音乐理解技术实现了音乐聆听界面后，我们发现了许多其他有趣的事情。

　从一开始，听音乐就不只是被动的，人们自然而然地喜欢主动地欣赏音乐，在听的时候拍手或发出声音。

　然后我们意识到，如果我们使用音乐理解技术创建世界上第一个音乐界面，我们可以开辟各种新的体验，让我们享受更主动的与音乐的互动，因此我们提出了一个新的概念，称为“主动音乐聆听界面”。

　我刚才介绍的只是一个例子，但从那时起我们已经实现了各种音乐理解技术和十多种主动音乐聆听界面。我们还开发了一个界面，允许您根据自己的喜好编辑现有歌曲，例如在播放歌曲时当场替换鼓声和鼓模式。我们还开发了各种界面，用于使用文本以外的方法搜索许多歌曲。

――这种事情从总体上看确实很有趣，但是在学术会议上是否也有类似的反应？

转到是的。当我在国际会议和国内学术会议上展示这些研究成果时，我很高兴得到了很高的评价，说：“这太棒了！”，很多人说，“我希望他们在家里使用它。”但是，人们很难按原样使用它。这只是实验室里的技术演示，计算是在高性能计算机上进行的。

--确实，即使是个人创建的程序也常常因环境而无法工作，因此当技术正在研究时似乎更加困难。

转到因此，当我对这种主动聆听音乐进行研究大约 10 年时，我开始思考如何通过技术更直接地为社会做出贡献。因此，大约 10 年前，我们发起了一项举措，让人们以网络服务的形式体验我们的音乐理解技术。

--我明白了，这是您向我们展示的第一个服务，而且是发布了一项即使是普通大众也可以立即接触到的服务。现在，我想谈谈后藤先生和他的同事们发布的各种Web服务，我在开始时向大家展示了一些。

将音乐内容可视化的音乐地图

――您的第一个网络服务是什么？

转到为了发挥海量数字化音乐的魅力，我们首先必须对其进行自动分析。有“歌曲”

　除了我之前解释过的 SmartMusicKIOSK 歌曲结构（合唱和重复部分）之外，Songle 还可以自动分析旋律、节拍和和弦进行这四种典型音乐元素。我将这些可视化，以便您在听歌之前就可以理解歌曲的内容，我将其命名为“音乐地图”。

转到我们可以通过点击音乐地图的合唱部分来播放，所以现在任何人终于可以体验 SmartMusicKIOSK！这使我长期以来的梦想之一实现了。

--这不是一个只能看到分析结果的网站，但是如果你输入你的音乐数据，它会帮你分析吗？

转到是的，它支持Nico Nico Douga、YouTube音乐视频、PiaPro等，当您输入网址时，它会在大约10分钟内自动分析。您还可以查看已自动分析的超过 250 万首歌曲的音乐地图。然而，Songle 并不发行音乐；相反，用户的网络浏览器直接从原始站点播放音乐。

　当然，由于是自动分析，因此结果可能会存在错误，但也有一个功能可以让注意到错误的人自由更正。

*尝试 Songle 的服务

与音乐相连的世界

转到我意识到，如果我有一张由 Songle 自动分析的音乐地图，我就可以用它来创建各种“与音乐相关的世界”。

　换句话说，因为我们知道歌曲中的什么时间会发生什么，所以我们可以让机器人随着音乐跳舞或显示 CG 图像。

　我们为此发布了 API（Songle Widget）后，引起了工业界的兴趣，并与以机器人控制系统 V-Sido 闻名的 Asratec Co, Ltd 合作，开发了允许机器人随着音乐跳舞的系统“V-Sido × Songle”。

“V-Sido × Songle”，机器人与音乐同步跳舞。单击图像观看实际演示视频。

――这很可爱。所有不同的机器人都可以随着音乐同步跳舞。

转到当我结合音乐控制各种机器人、灯光设备和CG时，我意识到，如果我能够大规模地将数百到数千台智能手机、电脑和其他设备与音乐同步，我可以创造出前所未有的音乐体验。因此，“歌曲同步”。

　通过使用它，您可以与活动会场播放的音乐同步，同时改变许多人的智能手机屏幕显示，改变智能手机以外的照明设备的颜色，并使机器人移动。

---这成为了一个热门话题，因为它被用在了初音未来的活动上。

转到没错，2017 年在幕张展览馆举办的初音未来“Magical Mirai 2017”活动中，超过 600 人通过智能手机屏幕观看 DJ 舞台。使用 Songle Sync 显示同时改变的 CG 视频效果我做到了。你可能会觉得使用智能手机很麻烦，必须安装应用程序才能使用，但Songle Sync的关键点在于，你根本不需要应用程序，来场的人只需用智能手机摄像头扫描二维码即可访问它，并可以立即链接。

此外，2018年，我们在初音未来Live的“SNOW MIKU LIVE！2018”中进行了演示实验，并将其显示在数百人的智能手机屏幕上显示与音乐关联的 CG 图像的作品演唱会期间，每个人都想看看舞台，所以在演唱会开始前等待的时候，他们在智能手机的网络浏览器上生成并显示了 CG 图像，与会场播放的背景音乐同步。

---那样的时间是相当自由的。如果会场等候的人们的智能手机屏幕与音乐同步移动，那肯定会很有趣。

转到此后，在初音未来的生日活动中，我们向世界各地征集了祝贺信息，然后将其在 Magical Mirai 2018/2019 活动场地的智能手机上与音乐同步显示。这项活动非常受欢迎，因此我们自 2020 年以来每年都继续在网上进行。

*“Songle Sync”链接点击此处并按“体验”

――哇，这真是太好了。

转到实际上，过去的表演是点击此处进行尝试。并从“选择制作风格”中进行选择。例如，如果您在三部智能手机上访问它，您可以看到它们是如何同步的。

――这是否意味着您可以在所有设备上同步它而没有任何延迟，因为它与音乐同步？

转到是的，但通常当您尝试控制此类内容时，当演示文稿发生变化时，命令会从服务器发送，智能手机会接收并显示它们，因此它们会不同步且无法同步。即使在 YouTube 直播中，事情也会不同步。

Songle Sync 的关键是当制作发生变化时根本没有通信。实际上，我们使用Songle的音乐地图并将其预先分发到每个智能手机上。只要您决定何时开始播放歌曲，您就可以在智能手机上计算每个节拍的时间。然后，如果您在此时更改显示，它将看起来与节拍同步。这样，即使智能手机数量增加，也可以完美匹配生产。

---这是否意味着您可以通过匹配歌曲播放开始时的时序来进行同步？

转到基本上是这样，但实际上，智能手机和电脑上的时钟并不总是准确的，而且系统允许用户参与这个过程，因此为了与数百或数千台设备同步，仅仅在一开始就设置它们是不够的。我们需要进行大量的试验和错误才能弄清楚多久通信一次并设置时间，以及如何在不同环境下同步设备。

重要的是，体验Songle Sync作品的人不需要考虑任何事情，只需扫描二维码即可，事实上，即使是创作作品的程序员也不必担心沟通问题，他们只需为一台智能手机编写作品即可。之后，我们的 Songle Sync 会在幕后处理所有麻烦的通信机制，使许多智能手机能够协同工作。

　业内人士如何以编程形式使用 Songle Sync API 的一个例子是在 2019 年烟花节上，它被用来显示歌曲标题和 CG，同时在与会者的智能手机上播放与烟花发射相关的音乐。

--啊，我家附近的烟花节，会场有扬声器，烟花与音乐同步，但根据距离的不同，你可能听不到，或者声音和灯光不同步，所以如果你能通过智能手机收听它就太好了。

转到此外，还可以创作出将城市与音乐联系起来的表演，并在2020年在札幌市中心举办的名为“SYNCHRONICITY 2020”的活动中使用。建筑物和行道树会随着音乐及时亮起灯光，但由于是公共场所，因此实际上并没有播放音乐，而且很安静。

　然而，当路人扫描本次活动的二维码时，音乐将通过智能手机的耳机使用歌曲同步机制播放，只有有权访问的人才能欣赏与音乐链接的表演。

---当你这样看时，你会发现它被用在如此多的不同地方，并且使用创建音乐地图的音乐理解技术正在一个又一个地创造新的体验。

转到谢谢。到目前为止，我们一直在谈论聆听方面，这是一种与音乐相关的新音乐体验，但我们也致力于支持与音乐相关的视频内容的创作。

---啊，这就引出了我开头介绍的“TextAlive”的研究。

转到是的。早些时候，我跳过了关于我们如何能够与音乐同步自动显示歌词的技术解释，但我们已经开发并正在使用音乐理解技术，可以自动估计歌词每个字母的发音时间。此外，“文字活跃”还使用Songle的音乐地图，因此制作会根据音乐的节拍和合唱自动变化。

--原来如此，你刚才给我看的时候，我觉得很神奇，但我不明白它是怎么做到的，但听了这样的解释后，就觉得有道理了。

　然而，在正确的时间显示歌词所涉及的技术令人惊叹，但令人惊叹的是它看起来很酷。显示的歌词设计得非常好，我很好奇他们是如何让这部分看起来如此酷的。

转到这些网络服务不是我一个人创建的，而是由一个团队创建的，这是领导 TextAlive 研发的 Atsushi Kato 在外部各方的帮助下正在努力完成的事情。他不仅实现了TextAlive服务器和客户端，而且还很有设计感。

　请大家注意。前面提到的“SmartMusicKIOSK”是我自己研究开发合唱检测技术，并使用OpenGL自己实现界面的研究项目。但是，其他各种Web服务和技术是通过与AIST媒体交互研究组的非常有才华的研究人员和工程师的团队合作创建的。

所以，虽然我是替你们介绍的，但希望你们不要误认为这个研究结果只是我自己的。

――没错。确实，一般大众可能无法理解研究团队的想法，但这和电影里的一样。它是由大量的人聚集在一起制成的。

转到我们的团队规模不大，人数没有电影中那么多，但涉及到如此大规模、复杂的技术，单枪匹马很难完成。虽然Kato负责将TextAlive实现为Web服务并自动生成作品，但他并没有参与音乐理解技术的研究；例如，歌词的发音时间估计是由 Tomoyasu Nakano 开发的。

因此，如果您在体验我们的网络服务时能够牢记这一点，我将非常高兴。 AIST的优势之一是这些多才多艺的专业研究人员可以组建团队并进行研究。

发现您喜欢的音乐的技巧

--先生后藤，你刚才谈到了这样一个问题：虽然音乐已经数字化，我们可以访问大量音乐，但找到你喜欢的音乐仍然很困难。

转到是的，音乐已经非常多了，而且每天都在创造新的歌曲，所以即使你一辈子都在听音乐，你自己也不可能把世界上所有的音乐都看完。因此，拥有一种技术，可以让你在借用音乐理解技术的力量的同时，发现自己喜欢的音乐，非常重要。

――这肯定是任何内容都可能出现的问题。这就是为什么现在到处都有系统提出诸如“看到这个的人也看到这个”或“您的推荐”之类的建议。

转到许多此类系统都基于一种称为协同过滤的技术。然而，这项技术存在一个问题，往往只会推荐热门作品。换句话说，没有人听过的作品或者新艺术家的作品，即使有人喜欢，也不会被展示。

　这就造成了观众无法找到自己喜欢的歌曲，流行歌曲变得更加流行的问题。这也给创作者带来了一个问题，因为他们创作的歌曲没有被应该喜欢他们的观众注意到，他们的好歌曲最终消失了。

　换言之，这无论是对于听音乐的人，还是对于创作音乐的人，乃至未来多元丰富的音乐文化都必须解决的本质问题，而且是一个没有技术的力量就无法解决的问题。

　在那里进行了音乐发现的研究和开发“风筝”

※风筝官网

　这是一项以音乐理解技术和音乐推荐技术为后盾的服务，可让您从Nico Nico Douga的46万首VOCALOID歌曲中高效地搜索您喜欢的歌曲。

　这是一项方便的试听服务，它有一个功能，可以让您只听Songle分析的合唱部分。我很高兴我大约 20 年前创建的 SmartMusicKIOSK 的合唱检测技术在这里也很有用。

---您可以使用如此多的技术，真是令人惊叹。

转到此屏幕底部的橙色部分是副歌部分，但您可以依次收听多首歌曲的副歌部分的开头，如果您喜欢某首歌，请按“赞”（收藏夹按钮），稍后再听整首歌曲。

　事实上，如果创作者能从头到尾听这首歌会更高兴，但这个功能的概念是，如果他们根本不想听，最好让他们只听歌曲的副歌部分并发现它。

“Kite”播放器屏幕。点击图片即可观看Kiite的演示视频。 — 风筝播放器屏幕。点击图片即可观看Kiite的演示视频。

即便如此，也不可能听完全部 46 万首歌曲，所以我们还有雷达功能，可以让您缩小想要听的歌曲范围。

　它会自动分析音乐的印象，并将激烈的歌曲和轻松的歌曲放置在雷达屏幕的不同区域。例如，如果您单击名为“轻松歌曲”的区域，将显示可能的歌曲列表供您收听。

--您是否觉得这是一首节奏激烈的歌曲？

转到不，不是。这使得系统可以对大量预先手动标记的音乐印象进行机器学习，然后使用学习结果来估计音乐印象。它使用了与我到目前为止所解释的完全不同的音乐理解技术。所以这个服务的特点之一就是你可以根据印象来搜索歌曲。

　另一大特点是它带有音乐推荐功能，根据用户过去“喜欢”的歌曲列出用户可能喜欢的歌曲。这非常方便，如果你通过点赞等方式给出反馈，推荐引擎就会逐渐成长以匹配该人的喜好。

　到目前为止，我们经常需要通过输入我们知道的歌曲或艺术家的名字来搜索，或者依靠排名来听歌，所以我们想创造一种完全不同的方式来体验歌曲。

---所以，您推荐的技术与订阅服务和邮购中经常使用的协同过滤完全不同。

转到是的，不是。那么，正如我前面提到的，只有被很多人听过并且流行起来的歌曲才更有可能被推荐。然而，推荐 Kiite 不仅是因为它很受欢迎，而且还因为它很受欢迎。它的特点是利用音乐理解技术来分析推荐还没人听过、但又接近自己喜欢的旋律的歌曲。您可以根据音乐的内容、您和其他人听音乐的方式以及是否来自同一创作者来提出全面的推荐。

---所以即使有人今天刚刚发布了一首歌并且还没有人听过它，如果那个人看起来喜欢它，就会推荐它。

转到是的。所以这对于创作者来说也是一个很好的功能。

然而，无论系统有多好，如果我们只听计算机的建议，就会剥夺人们的自由意志。所以在Kiite，推荐只是发现音乐的一种方式，我们还有多种其他方式来发现你不知道的音乐。

其中一篇于 2020 年 5 月发布“风筝咖啡馆”是一项每个人都可以一起听音乐的服务。

“风筝咖啡馆”的画面。点击图片观看演示说明。 — “风筝咖啡馆”的屏幕。点击图片观看演示说明。

　这些圆形图标中的每一个都是 Kiite 用户，这里的每个人都在同一时刻听着相同的音乐。这里播放的歌曲是由出席的人随机选择的。特别是，每个人都可以设置一个他们希望每个人都听到的歌曲的“热门列表”，并且将从那里选择歌曲。如果您查看屏幕右上角，您可以看到该歌曲来自谁的最爱列表。

　还有一个功能是让听者可以在评论气泡中写下自己的感想和喜悦的声音来进行对话。此外，如果您喜欢一首歌曲并按“喜欢”（心形标记），您的图标右上角会出现一个心形动画。

　当我最喜欢的歌曲在这里播放，其他人喜欢它并出现心形时，我感到非常高兴和感动。这真的很令人震惊，我希望人们能够体验到看到每个人都喜欢并对他们喜欢的歌曲做出反应的感觉，即使这不是他们自己写的歌曲。

――由于每个人都在实时分享和收听，所以很大一部分是你可以在现场得到实时反应。

转到完全正确。当我面前的人听到我喜欢的歌曲时，那个人会很高兴并回应说他们也喜欢这首歌。扩大的圈子感动了很多人，成为这项服务粉丝的人数也随之增加。

Kite Cafe 最初创建于 2020 年，当时冠状病毒使每个人都很难聚集在一起听音乐，因此我们认为我们可以以某种方式做出贡献，但我们能够提供一种体验，让每个人都可以互相推荐自己喜欢的音乐并一起聆听。我认为这是一项极具吸引力的服务，不仅因为它通过让你看到其他人喜欢你最喜欢的歌曲的确切时刻而创造了新的价值，还因为它为人们创造了一个以不同于普通音乐推荐的方式接触音乐的场所。

*尝试使用 Kiite Cafe

--看到这些乱七八糟的图标和令人兴奋的感觉当然很有趣，就像置身于俱乐部会所一样。

转到没错。同一个团队的成员石田圭介（Keisuke Ishida）集中提出想法并实施它们，包括那些设计，这确实令人惊叹。 Kiite 的研发团队每周召开一次会议，集思广益，并陆续添加新功能。

　比如，我们推出Kiite Cafe一段时间后，我们就开始思考是否可以用它来像普通咖啡馆一样举办私人合作活动。因此，我们不再是在合作时间内随机选择歌曲，而是添加了一个功能，可以让您决定播放列表并像现场音乐会一样享受它，并于 2020 年 8 月开始举办。

此外，2021 年 3 月，新功能允许您仅在协作活动期间挥动笔灯而且，既然要这么做，我们就不得不使用音乐理解技术，所以我们使用了前面提到的Songle的音乐地图，使得可以根据每首歌曲的节奏来改变摇摆的速度。第一次亮相的时候，挥舞笔电的速度就变了！我很高兴用户如此惊讶。

　2023 年 8 月，为了纪念我们成立三周年，我们添加了一项新功能，允许您更改笔灯的颜色，以表达我们对粉丝的感谢。

---您研究中发表的技术给这么多人留下了深刻的印象，真是太棒了。

转到我们衷心感谢所有用户，他们给予我们的支持超出了我们的想象。

过去，Kiite Cafe的粉丝自愿举办“Kiite Cafe促销节”，以文字、插图、视频等各种形式制作广告和广告，并在SNS上进行宣传，说“这是一项很好的服务，每个人都应该使用它。”当然，我们事先不知道这一点，所以我们真的很惊讶，整个开发团队都很高兴。

“Kiite Cafe 的用户太棒了！”
后藤先生说得很热情。

我想让更多人知道Kiite的魅力！看来是用户自愿举办宣传节、介绍产品的。后藤先生也对此印象深刻……！

多么暖心的一集……🔥pictwittercom/G8VVInGq2w
— 米乐m6官方网站 (AIST) (@AIST_JP)2023 年 7 月 31 日

　让我惊讶的还有很多。和往常一样，《Magical Mirai 2023》的活动会场里摆满了很多鲜花（花架），但令我惊讶的是，Kiite Cafe的粉丝们捐了钱设立了一个名为“所有Kiite Cafe用户”的花架。

我很高兴，还拍了一张纪念照。

为所有 Kiite Cafe 用户提供的花架！！
您的热情和创造力一直给我留下深刻的印象！

我会在展示台前在更衣室，但我会在16:30之后出来，所以如果你正好有空，我会很高兴见到你。#Kiite pictwittercom/PMLjh5rFBh
— 后藤正孝 / 后藤正孝 (@MasatakaGoto)2023 年 8 月 12 日

――这真是一个精彩的故事。我没想到在谈论研究时会听到如此感人的故事。

转到我们已经谈论 Kiite Cafe 很长时间了，但在 2023 年，我们将继续这样做“风筝世界”

　这项服务的理念是，Kiite 用户可以创建自己喜欢的 100 首歌曲的播放列表（100 首精选），然后将其发布为自己的“音乐世界”，以便每个人都可以收听。

“风筝世界”是您可以分享自己的“音乐世界”并聆听彼此音乐的地方。点击图片观看演示说明。 — “风筝世界”，您可以在这里分享您的“音乐世界”并互相聆听。点击图片观看演示说明。

　左下角的每一个云状白点都是一首歌曲，它们并不是随机排列的，而是利用我前面提到的音乐推荐技术，计算并放置在口味相似的人喜欢的歌曲附近。

――那些稍大的白色圆圈是什么？

转到这显示当前访问该页面的用户。这个系统可以让你们知道彼此在哪里以及他们在听什么。

此外，还有一个功能可以通过同步播放同一首歌曲。当您使用此功能时，您可以看到歌曲由粉红色的线连接，并且您正在一起听。当你用耳机听音乐时，有时你会借出一只耳机来一起听。这样，如果有人对其他人正在听的音乐感兴趣，他们可以一起听。

此外，任何人都可以轻松地举办一个活动，通过设置日期和时间并邀请人们参加，每个人都可以一起听音乐。事实上，我们正在计划 2023 年 12 月的降临节日历，我很惊讶地看到 Kiite World 用户几乎每天都在举办这样的活动。此前已经举办过各种活动，自一月份以来，他们一直在呼吁举办许多具有不同概念的风筝世界活动。

――它的传播方式令人惊讶。

转到我真的很感激也很高兴有这么多人对此感兴趣。

--看起来这已经是一项既定的服务，但它仍然是您研究的一部分，对吧？

转到是的。我们写了各种与网络服务相关的论文，并在学术会议上发表过，但例如在 Kiite Cafe，我们在发表论文之前发布服务，然后再写有关用户如何享受它的论文。

――学术界如何评价此类研究？

转到我们获得了很高的评价，包括获奖和接受国际论文，但我认为我们不仅有我们的想法和技术的新颖性，而且还分析了服务的实际使用和发布方式，因此获得了更高的评价。

--我明白了。一段时间以来，您一直在向用户表示感谢，但后藤和他的同事正在进行的研究正在与用户同步进展。

转到我非常感激。我希望这篇文章将成为一个机会，我真的很高兴人们对我们的研究感兴趣并正在使用我们的网络服务。如果更多的人能借此机会对音乐信息处理的研究产生兴趣，并与我一起共同推动未来研究领域的发展，我也会更加高兴。

研究的入口在哪里？

--您说很高兴有新的研究人员来到这个世界，但是有很多人觉得研究的世界很难进入，我想学生们想知道成为研究人员的入口是什么样的。

那么，后藤先生，您能告诉我们您的音乐信息处理研究是如何开始的吗？

转到1992年，我在大学四年级的时候写毕业论文，我的导师村冈洋一教授强调学生应该找到自己的研究主题，他给了我提出自己选择的主题的机会。当时我记得高中的时候，我想要一个在我演奏音乐的时候能够输出乐谱的系统，所以我就提出了这个想法。

　然而，由于这是一个实验室里没有人研究过的领域，所以我被告知要自己做研究，思考这个研究主题是否真正是世界首创，是否有用户在寻找它。

---你的意思是让他们找到自己的研究主题，对吧？如果有人已经做过并且知道某件事，那么研究它就没有意义，创造一项没人想要的技术也是没有意义的。他是那种即使在本科生的时候也确保自己做得正确的教授。

转到当时没有网站，也没有搜索服务，所以我在大学图书馆躲了大约一个星期，研究文献。当时我意识到，虽然有技术可以分析只有一种乐器演奏时的情况，但如果我们能够创造出可以分析同时演奏多种不同声音的鼓演奏声音并输出鼓乐谱的技术，那将是世界首创且有用的。我向他解释了这一点，并决定将其作为我毕业论文的研究课题。

　事实上，我的毕业论文研究成果是世界第一，后来被电子信息与通信工程师学会期刊接收。

--我想有很多人说，当他们作为本科生进行研究时，他们所做的事情与他们现在所做的完全不同，但后藤先生从那时起就一直坚持同一个方向。我的印象是，这与我今天谈到的各种研究有关。

转到然后，1993年，当我还是研究生院一年级硕士生时，Muraoka教授告诉我，他将能够在他的并行处理实验室中使用最先进的并行计算机AP1000，那么为什么不考虑使用更大规模计算的新研究课题呢？我收到了这个建议。

　这次，我们提出了称为节拍跟踪的研究，它可以找到音乐的节拍。我提出这个主题是因为我想创建一种技术，可以分析有很多声音的输入，比如你每天听的流行音乐，而不是像我的毕业论文中那样只有鼓声的输入。

　这比这更困难，但人类在听到音乐时很容易理解音乐的节拍。所以我想也许我可以找到节拍。当时，即使是快速傅立叶变换也需要大量计算，并且很难实时计算，而且我们还使用了各种信号处理和估计过程，因此能够使用并行计算机的 64 个 CPU 来分析节拍是很有趣的。

后藤先生在学生时代宣布的系统。单击图像即可查看其实际效果。 — 后藤先生学生时宣布的系统。单击图像即可查看其实际效果。

　这是我学生时开发的一个系统的演示视频，它能够根据音乐自动检测1、2、桑、是等四分音符节拍。此外，在我的博士课程中，我将其扩展为能够检测小节的开始位置。

　这是世界上第一次能够从包含许多声音的流行音乐的声学信号中提取此类信息。

――我之前提到的这首歌也包含了提取节拍结构的技术，但从这个早期的研究来看，你们专注于寻找节拍。

转到没错。目前 Songle 中使用的节拍估计是一种完全不同的使用深度学习的技术，但我很幸运能够在学生时代专注于节拍作为一项研究，后来发展为音乐理解技术。后来，当这成为研究领域的一个重要标准问题时，它被大量引用为开创性研究。

　一旦你可以从音乐中提取节拍，你将能够做各种各样的事情，正如我之前介绍的。然而，在20世纪90年代，这种技术的存在一开始并不为人所知，人们有时也不明白该技术有什么用处。因此，我决定实现自己的应用程序示例，并演示这种称为节拍跟踪的技术如何发挥作用。我喜欢信号处理，但我也喜欢 CG 的 OpenGL 编程，所以我能够一石二鸟。

使用节拍跟踪技术让 CG 舞者跳舞的演示视频。单击图像即可观看实际操作的演示视频。

然后我们创建了一个系统，可以显示 CG 舞者随着音乐节拍跳舞。它从1994年开始开发，此后一直在改进，这是1998年录制的演示视频。一开始是一个问号“？”出现在 CG 舞者头顶上方，但一旦找到节拍和小节的开头，舞者就会自动开始跳舞。

　现在看起来像是廉价的CG，但在当时却是最尖端的视频，而且通过展示它可以通过分析音乐的节拍自动创建而无需手动创建，人们意识到这真的很神奇，甚至还出现在电视节目中。

――当然，在90年代看到CG角色跳舞是相当令人惊奇的。

转到这段经历告诉我，即使只对音乐理解技术进行基础研究，人们也可能很难理解它如何在社会中发挥作用，因此可视化并展示如何使用该技术非常重要。这样，更多的人会觉得有趣。

　另外，这个CG舞者视频实际上表明可以根据节拍控制灯光，而当时在现实世界中无法控制灯光，所以我们在CG中展示了它。大约 20 年后，我深深感动地能够使用 Songle Widget 和 Songle Sync 与节拍同步控制物理照明设备。

――太棒了。所以，你刚才提到的各种服务，实际上正在实现你长期以来思考的事情。

然后到了2000年代，MP3播放器之类的东西出现了，我们进入了将音乐作为数据随身携带的时代。那时，后藤先生就已经预言，未来，人们将不再需要随身携带音乐数据，而是可以在互联网上随心所欲地听音乐。

转到是的。在 2002 年研讨会演讲中断言了这一点2004年和2005年，我在国际会议和国内学术会议上提出了研究（Musicream），其假设是未来统一费率的音乐发行服务将变得普遍。当时，即使我们声称未来一切都将通过互联网分发，用户只有1GB的巨大缓存，这也太牵强了，人们很难相信。但现在，即使智能手机有64GB或更多的存储空间，也很容易超过这个数量（笑）。

后藤先生在 2002 年研讨会上关于未来预测的演讲的幻灯片。单击图像观看介绍此幻灯片的演示视频。

*2002 年研讨会演示的幻灯片介绍

与初音未来相遇“AIST P诞生的秘密故事”

---在本文的开头，我谈到了“AIST P”和“南极的Peer Peer视频”的主题，但我认为后藤先生也给人留下了强烈的印象，您是一个正在研究初音未来的人。

　就展望未来而言，我认为后藤先生很早就将初音未来和妮可妮可动画纳入他的研究中也是独一无二的。是什么让您将注意力转向这个地方？

转到自 20 世纪 90 年代以来，我一直看到很多关于歌声合成技术的研究公告，并且许多产品都是在初音未来之前发布的。初中的时候，我什至让店里的PC-6601唱歌。所以，技术上我当然知道，但我认为初音未来出现的当时的影响是，这项技术突然流行起来，改变了人们的价值观，它激发了用户的创造力，并将他们联系起来。

--初音未来的姐姐和哥哥现在确实很受欢迎，但是当MEIKO和KAITO出来时，即使是我周围那些DTM（在电脑上编辑音乐）爱好者的人也没有受到太多关注，因为他们认为很难称他们为歌声。

所以，当初音未来出现的时候，大家都非常惊讶，所有人都被她机械合成的歌声迷住了。

转到我没想到每个人都会喜欢一首主唱是合成歌声的歌曲。在那之前，人们有一种不言而喻的价值感，即除非是人的歌声，否则不值得听。那些旧的价值观已经被打破了。

　初音未来于2007年8月31日发布，我有幸在比利时安特卫普的一个国际会议上认识了Yamaha的VOCALOID开发者Hidenori Kenmochi。

　初音未来也在会场展出，我得知这种产品即将问世，并且在大多数日本人知道之前，开发者亲自在国际会议上通过演示介绍了它。初音未来也在这次会议中被释放。

于是，就在我面前的健持先生接到了从日本打来的国际电话，挂断电话后他告诉我：“后藤先生，初音未来在大型零售商处卖完了！”我也意识到那里发生了一些令人惊奇的事情。

2007年8月31日发布的歌声合成软件“初音未来”的爆红是世界价值观发生改变的时刻

——初音未来一经发售就大受欢迎，一直出现售空的情况。有很多人想要某样东西，却根本得不到。

转到从那时起，我开始几乎每天都会查看NicoNico Douga上发布的新作品，一边思考着各种事情，一边亲眼目睹了多么奇妙的事情正在发生。

--先生后藤，在您到目前为止的介绍中，您提到了与创作者的创意支持相关的技术。一款软件的发布引发了如此多的人的创作欲望，新的内容层出不穷，这本身就是一个奇妙的现象吗？

转到是的。一系列被称为N次创作的创作连环发生，不仅创作了歌曲，还由其他人添加了PV，并诞生了《我尝试过唱歌》、《我尝试过跳舞》等衍生作品。

此外，在初音未来发布的几个月内，发布了许多作品，重点是巧妙地调整歌声合成的音高和音量参数，以创造出听起来人性化、自然的歌声。

---这是一种接近自然歌声的调整，网上叫训练。如果他们擅长这一点，他们会兴奋地说，“上帝训练！”

转到当我看到这个时，我意识到通过应用我们的音乐理解技术可以更自然地合成它，所以我与当时年轻的研究员 Tomoyasu Nakano 一起创建了 VocaListener。这是一项通过分析人体模型演唱风格并创建VOCALOID歌声合成参数来合成自然歌声的技术。由于我们能够模仿和调整人类的歌唱，我们能够合成独特的颤音和复杂的歌唱风格，例如演卡。

――这歌声听起来很自然，令人惊叹。这个“Bocaris”演示的公开发布导致了“AIST P”这个名字的诞生。然而，最令人惊讶的是，这个名字在初音未来发布后不久就出现了，大约六个月后。

我当时正在看这个，当每个人都在努力训练初音未来更自然地唱歌时，突然出现一个技术演示，说如果人类唱歌，它可以自动调整，我记得很惊讶这样的东西已经存在。

转到我们之所以能够这么快做到这一点，是因为技术的积累。 1998年获得博士学位并进入研究所工作后，我同时进行语音识别和语音接口的研究。

---好吧，尽管您已经取得了如此多的成就，但您仍在幕后进行许多其他研究。

转到另一方面，大约在1998年到2000年期间，我实现了世界上第一个音乐理解技术，可以从包含许多声音的音乐中提取歌声，并利用该歌声我能够提出各种新的研究主题。所以在2000年代，我认为下一个前沿领域是与歌声相关的技术，我为此付出了很多努力。

　这是因为歌声兼具音乐性和声乐性，需要两者的技能，因此涉足这两个领域的研究难度和难度都很大。

　从音乐信息处理的角度来看，与乐器的声音不同，声音等音素不断变化的声学信号很难很好地分析。另一方面，从语音识别的角度来看，与说话的声音不同，歌声的元音拉长，音高波动较大，因此是最难成功识别的声音类型。

　所以我意识到在歌声的研究中还有很多研究课题还没有得到解决。因此，我们利用积累的音乐理解技术和语音识别技术来进行和呈现各种研究项目。我在2008年回顾这一点，称之为“歌唱声音信息处理”。

　在我见到前面提到的 Kenmochi 先生的国际会议上，他也介绍了与歌声相关的研究成果。

--所以，《Bocaris》能够这么快公布，是因为双方的研究结果。

转到没错。如果没有技术的积累，这是不可能实现的。

这就是为什么 VOCALOID 的开发商雅马哈对我们的“Bocaris”演示感到惊讶，并想知道，“我们可以做这样的事情吗？！”雅马哈随后建议我们将其商业化，并且该产品实际上已发布。

---你说的是基础研究有多重要，或者说过去的积累如何发挥作用。

转到没错。因为我们积累了技术和知识，通常需要很长时间的开发往往可以在很短的时间内完成。

未来预测的想法对于技术研究很重要

--当我听你的演讲时，我意识到未来预测对研究人员来说有多么重要。我总觉得在技术研究方面取得成果的人非常善于预测未来，但是后藤先生您是如何预测未来的呢？你有什么秘密吗？

转到我经常从技术中获得灵感，但我也喜欢阅读科幻小说，思考未来，并与人交谈，即使这与我的研究无关。当我做这样的事情时，有时我会想，“哦，如果未来是这样的话，也许我可以结合自己的技术来做这样的事情。”

---当我听到这个时，听起来和科幻小说迷的爱好没有太大不同。他根据科幻作品想象出一个他觉得有趣的未来，并将其作为他的主题的核心，即那个世界可能发生的问题。

转到每个研究人员都会对未来有不同的预测，如果他们解决了一个以前没有人解决过的问题，他们的研究肯定是世界第一。如果我们先做某事，当我们以后需要做某事时，我们也许就能成为先驱者。这让我作为一名研究人员感到非常高兴，如果更多的人发现它有吸引力并成为研究人员，我会很高兴。

关于未来

---最后，我想通过询问后藤先生对未来的想法来结束这篇文章。后藤先生，您一边进行研究，一边对未来做出各种预测。你对未来有什么想法？

转到要谈论未来，最好回顾一下过去的趋势，而音乐自古以来就随着科技的发展而发展。我们现在认为理所当然的钢琴和吉他在发明时都是最先进的技术。这样，乐器、音箱、制作环境、发行方式等都需要技术的力量来支撑。换句话说，音乐文化受到技术发展的影响，音乐的体验也随着技术而快速变化。这种变化没有理由不会持续到未来。

　虽然音乐已经数字化，并在云端大规模积累，但过去的重点是量变，即内容数量增加的变化。然而，仅仅通过分发内容来创造价值变得越来越困难。

十多年来我一直在论文中提出，音乐数字化带来的真正价值是质变，即体验质量的变化，而我相信音乐理解技术是带来这种变化的关键。通过这样做，我们将通过创造“不可复制的活跃体验”来创造新的价值。

　一个完美的例子就是我之前介绍的“Lyric Video”的未来是“Lyric App”。在Lyric Video中，每个人都观看同一个视频，但是当人们与Lyric App上的作品互动时，它就成为每个人都不同的主动体验，并且无法复制。

　如果这种情况取得进展，创作者也许能够创作出让他们从一开始就能够更自由地提供多样化体验的内容。

另一方面，听众也可以根据自己的口味更改内容。我们还提出了今天无法介绍的主动音乐收听界面的各种其他示例。

――我的印象是，当听众能够按照自己喜欢的方式演奏音乐时，欣赏和创作之间的界限逐渐变得模糊。

转到这就是我们一直追求的积极音乐聆听体验。用户不仅仅是内容的被动消费者。听音乐也成为一种创造性的体验。

这就是为什么从一开始，在 Kiite，我们就明确将用户定义为向其他人推荐歌曲的“策展人”，而不是“听众”。找到自己喜欢的音乐，创建一个播放列表，分享，互相介绍，和其他人一起听，这个行为就足够有创意了，我认为在未来，这将成为一种表达和创作的常态。

　从这个意义上说，正如我之前提到的，Kiite Cafe的粉丝们给了我们从未想象过的创造性支持，这让我们感觉我们正在共同开创一个未来，这让我们非常高兴。

---我觉得创作、欣赏和交流都融合成一种新的体验。

转到这样一来，我相信，如果能够通过人类的创造性活动和科技发展的结合，带来质的变化，让我们享受音乐的方式更加活跃和丰富，音乐体验和文化也会变得更加丰富。

这一次，我们采访了研究人员 Masataka Goto，他正在通过技术的力量开创新音乐体验的未来。
这是一个很长的演讲，因为各个领域都有大量的研究成果，但实际上我还无法全部介绍，并且遗漏了许多有趣的技术。
后藤先生参与的其他 AIST 服务包括 Niconico Douga 上的原创歌曲视频成为明星，以及衍生视频成为卫星。“颂歌”
在Songrium，您可以重温Nico Nico Douga的热门内容在哪个时代是如何流行的。“超级历史播放器”的功能，对于那些沉浸在Nico Nico动画中生活的宅男们来说是怀念的，对于现在抱怨看不懂主播们谈论的Nico Nico笑话的年轻人来说，是非常有用和有趣的内容。如果有机会的话，我希望你能尝试一下并看看。
后藤先生和他的同事正在从事的工作，包括 Kiite 等服务，是与让我们快乐的内容和新体验的邂逅。
这些技术只有在人们体验时才能创造价值。我们希望您能借此机会体验并享受后藤先生及其同事为公众提供的服务。
最后，本文介绍的技术和服务是包括后藤先生在内的各种研究人员、工程师和相关方贡献的结果。我将包括这些人的功劳。