现在热门的「可不」不属于vocaloid？所谓的最新技术「CeVIO AI」

八卦谈佚名 ▪ 2024-03-16 00:35:17

笔者最后更新：2023/4/27
文章编辑最后日期：2023/7/10

在2023.7.7日的两周年生日活动时公开了SV AI的声库制作决定。
KAFU目前有CeVIO AI /Synthesizer V 两个声库版本

这是2021 CCC 圣诞日历活动第二十天的文章。

我是KALTE。是一名作曲家。

虽然这么说有点突然，我还挺喜欢UTAU来着。在之前也有稍微写过关于UTAU的文章。

我所推荐的UTAU音源6选
https://note.com/kalte/n/nb5a8fb3b0f2a

虽然最近不怎么能看到了，大概5年前左右出现过大量的以使用重音teto和暗音renri等等为首的UTAU的良曲，我觉得当时被这种近似人类一样的歌唱方法所震撼到的听众也不少。ポリスピカデリー（PolicePiccadilly）的「ナーヴ・インパルス」之类的，这种曲子达到过能让没有听过暗音renri唱歌的人没有办法判断和人声区别的程度……

在此处，不知道可不可以讲一点当UTAU听众的话经常会有的感受。

虽说这是在niconico上经常会出现的弹幕……

「调教好厉害！！真的是vocaloid吗！？」

就是这条。

尽管从听众这边出发看UTAU的认知度较低也是没有办法，但是VOCALOID和UTAU是不同独立的声音合成技术，VOCALOID≠UTAU这一点从UTAU发行以来经过了13年的今天也没有传播渗透开来确实让人很着急。

从作曲者角度出发，有着VOCALOID虽然是付费的但是从一般人看来音源（初音未来、镜音铃之类的这些声音的种类）的认知度较高，然后UTAU虽然是免费的但是音源的认知度和质量与VOCALOID相比逊色这些明确的区别（虽然如果是优秀的UTAU音源通过调声可以获得凌驾于VOCALOID之上的性能）。因为没有创作过曲子的人不了解这些也是正常的，但如果搞错了的人可以借此机会记一下哦。

嘛暂且搁置一下这个话题，今年（2021年）1月新的声音合成软件「CeVIO AI」被公开了。

实际上从2021年一开始「结月缘丽」还有「IA -ARIA ON THE PLANETES-」这样使用了CeVIO AI的音源就早已公开，但是让CeVIO AI名声大噪的大概是，以KAMITSUBAKI STUDIO所属的花谱为原型于2021年7月7日登场的「可不」吧。

之前平时就有在听花谱的曲子，所以在正式发售之前我就在想「KAMITSUBAKI STUDIO，你做的好啊……」，一直有在听她的demo曲。

但是，在音源正式发售之后不久，在某位的推广广告中看到了有着这样标题的视频。

「○○○（曲名）/△△△（作曲者名）feat.可不【vocaloid原创曲】」

喂！！！！！！！

听众就算了，使用者在这种地方犯错可不行吧！！！！！！！

嘛，就因此变成这么٩(๑`^´๑)۶生气了。我还想是不是因为想要让播放量增加才故意写成这样的呢……

上面说了这么多开场白有点长了，而我想让请大家重新认知一下「CeVIO AI」是什么，因此写下了这篇文章。我会仔细说明，哪怕之前相关知识为零也能明白，可以的话请读到最后吧。

所谓TTS

在讲到CeVIO的话题之前，不知道大家对TTS这一词了解吗。

TTS是Text to Speech的略称，用日语说来就是「音声合成」（中文的话是【语音合成】）。之前说到的VOCALOID,UTAU,CeVIO AI都是TTS的一种。顺带一提，VOICEROID（结月缘、绁星灯之类的）这样的语音特化的音源也被称作是TTS。

接下来将会把TTS的例子按照初版发行的顺序先依次列举如下。

VOCALOID（2004年/歌唱特化）

SofTalk（2006年/语音特化）

UTAU（2008年/歌唱特化）※非生物音源除外

VOICEROID（2009年/语音特化）

Synthesizer V（2018年/歌唱特化）

CeVIO AI（2021年/歌唱·语音特化）

其他的话还有NEUTRINO（2020年）或者CoeFont（2021年）之类的音源，列举下去就没完没了了。不知道「ゆっくりボイス」正式名称的人应该也有很多吧。（答：SofTalk，详见ニコニコ百科）

虽然偶尔也会有人认为UTAU或是CeVIO AI是与VOCALOID相同的，或者是属于被VOCALOID所概括的软件群体，但正如最开始所说，这三款软件是独立的声音合成技术，因此这种看法完全是错误的。

VOCALOID是由雅马哈这样的「企业」，CeVIO AI是由CeVIO Project这样的「企业团体」，UTAU是由叫做飴屋P的「个人」所研发出的。如果想要将这三款软件组合在一起谈及的话，不应该是使用VOCALOID而是应该使用歌声合成软件或者是歌声合成技术（Singing Voice Synthesis; SVS）这样的词才是正确的。（包括CeVIO AI这样只存在语音特化的音源。合成语音的技术也被称作文本到语音（Text to Speech; TTS））

「初音未来」「镜音铃」这样的角色名称，严格来讲，与其说是在TTS下属的分类，不如说是在「VOCALOID」这一声音合成软件内部分类下的音源，也就是音源的种类。

对于音源，如果和研发软件的各家企业（比如说对于VOCALOID就是雅马哈）签订了许可合同之后独自开发和销售也是可以的。比如稲葉曇的「ラグドレイン」，ゆこぴ的「强风大背头」，其中使用的歌爱雪这一音源，就不是由YAMAHA而是叫做AHS的企业发售的。

VOCALOID 4 歌爱yuki | AHS(AH-Software)

虽然从了解的人看来可能很理所当然的，实际上初音未来或是镜音铃这些代表性的VOCALOID的开发公司也不是雅马哈而是一家叫做Crypton・Future・Media的公司。雅马哈，意外地在音源方面并没有研发出那么多东西，有名的也许就是buzzG的「Fairytale，」的翻唱中的VY1V4这种程度……

各软件的音源的例子我也暂且先写出来（除了SofTalk）。

◆VOCALOID：初音未来，镜音铃，镜音连，巡音luka等等

◆UTAU：重音teto，暗音renri，雪歌yufu，波音律等等

◆VOICEROID：结月缘，绁星灯，琴叶茜，琴叶葵等等

◆Synthesizer V：小春六花，弦卷maki，Saki等等

◆CeVIO AI：可不，佐藤莎莎拉，小春六花，星界，#KZN等等

(译注：其中，Synthesizer V也有赤羽艾可这样的中文音源https://dreamtonics.com/synthesizerv/，CeVIO AI详见萌娘百科https://zh.moegirl.org.cn/CeVIO）)

「小春六花为什么同时存在于CeVIO AI和Synthesizer V两边呢？」虽然容易产生这样的疑问，但是这并不是笔误，而是因为同时存在「CeVIO AI的小春六花」和「Synthesizer V的小春六花」。在这种情况下，CeVIO AI是语音特化，Synthesizer V是歌唱特化的小春六花。说话的小春六花是以下视频这种感觉。

和Kanaria的Synthesizer V小春六花的表情差太多了有点搞笑哈。

我觉得看了刚刚GYARI的视频的人就能了解，也存在着结月缘、绁星灯这样横跨多个软件的音源。东北kiritan（切蒲英）在其中是数一数二地复杂，能够使用的软件如UTAU，VOICEROID,CeVIO AI，NEUTRINO等多得要死（因此对于音源就不得不获取·购买各种各样的软件）。还要开始考虑到版本的区别的话就更没完没了了。

顺带一提SofTalk有点特别，「博丽灵梦」「雾雨魔理沙」这样的名字实际上在软件内并没有写着，比如说选择灵梦的话就要按照「声质=女性1，音程=100，速度=100」这样的设定。东方Project的角色名称完全是之后标上去的。标准来自于这个网站。

Nicotalk&角色素材分发处
http://www.nicotalk.com/charasozai_kt.html

把到此为止的东西总结一下，老实说尽管对于听众的话对于音源种类记不太得也没什么问题，但是可能会产生在文章开头所说过的那样的词语的误用，事先了解一下也没什么坏处。对于制作实况视频和音轨的各位，希望你们一定能了解这些所说的软件和音源的区别。

所谓CeVIO

那么，尽管差不多想开始说说CeVIO AI了，但是对在其前面的「CeVIO」还得说明一下。CeVIO AI是如上述音声合成技术的一种，而CeVIO这个词有着一下两种含义。

1. 由视频·音乐创作者团体和持有声音合成·歌声合成技术的技术人员团体实行的项目

2. 作为上述项目的一部分被发行的TTS，也就是「CeVIO Creative Studio」和「CeVIO AI」这些。

CeVIO Creative Studio简单地说，就是CeVIO AI的前身，发行于2013年。我使用CeVIO 这个词的时候，为了与CeVIO AI区分更多的是使用了上述1的含义。或者是就以「CeVIO Project」这样称呼。

虽然写着「创作者团体」「技术人员团体」，但是基本上这些都是企业。大概地说，创作这一方面主要是V-Sync和Frontier Works这两家公司，技术方面主要是Techno-speech来担任。Techno-speech，是进行着最前端的TTS研究的名古屋工业大学内的创业公司。

将要说明的主要包含类似于以下这些的项目。CeVIO AI当然也包含在这之中，但是将会在第3章说明。

CeVIO Vision（2013）

这个项目主要是在数字展板上进行双方向的会话。下面视频中是秋叶原的Animate店中叫做「佐藤莎莎拉」的角色在说话的样子。就像是聊天机器人一样的东西。

CeVIO Creative Studio（2013）

作为TTS的一种，既能够唱歌也能说话。技术上使用了HMM（隐藏马尔科夫模型，译者注：一种可以分析时序信息的统计和机器学习中常见模型）的方法。也经常被略称为「CeVIO CS」。

VoiSona（2022）

虽然现有的CeVIO Creative Studio和CeVIO AI是独立运作的软件，但它可以将CeVIO的功能如同VOCALOID一样在DAW（译者注：数字音乐工作站，一般也称宿主软件，大多数的音源、合成器都需要插入宿主软件中才能工作）中以VSTi插件（虚拟乐器技术插件）形式使用。

上面的话换个说法来讲，VoiSona发布之前CeVIO AI用户是先在CeVIO AI的软件中输出歌唱文件，再把它导入到DAW的vocal音轨中。也就是说CeVIO AI是在DAW软件的外部启动，开着CeVIO AI和DAW两个软件进行操作，因为CeVIO AI中对vocal输出的更改无法即时在DAW中反应，在制作过程中非常折磨。（因为界面都是分开的）

为了解决这一问题，VoiSona应运而生（也就是CeVIO AI的VSTi插件化）。

VSTi插件基本都是打开DAW软件后，再在DAW中作为子程序启动。这样一来，在VoiSona中进行的修正，会在DAW中即时变更，大大提升了编辑反馈的效率。对于不作曲的人来说没有特别的好处，但是对于音轨制作者来说是否能在DAW内直接操作vocal音源决定了工作效率，是非常重要的因素。

不过较为可惜的是，目前可不等现有CeVIO AI音源无法在DAW中进行使用。而是默认添加了「知声(Chis-A)」这一音源。CeVIO AI都是收费的，不过这一款可以免费使用。（如果想要使用AiSuu和＃kzn等其他音源时需要购买另外的音源软件许可证。）

所谓CeVIO AI

CeVIO AI是上述的项目中登场的一种TTS。其中有只能用于唱歌的音源，也有只能用于语音的音源，还有两边都能使用的音源。这一点和CeVIO Creative Studio是一样的。

作为差别的地方，刚刚写到CeVIO Creative Studio使用了HMM，这边CeVIO AI则是使用了DNN（deep neutral network，深层神经网络）或者CNN（convolution neutral network,卷积神经网络）的方法。一言以蔽之，也就是「深度学习」这一技术。虽然HMM也是深度学习。

省略掉算法的解释说明，简单而言，该系统使用计算机根据录制的声音创建「歌手个性」的模型，即使有未知的文本（音乐创作中的歌词输入阶段）输入，人工智能技术也能输出再现歌手个性的声音。神经网络(neutral network)，顾名思义，使用计算机网络来模拟人脑的结构。如果你对数学有点自信，可以去查一查。

所说的DNN或是CNN方法本身虽然之前就有，但是在CeVIO Creative Studio发行2年之后的2015年左右急速发展，开始在不仅限于TTS而是广阔的领域中都有所应用。

比如说被评价为比Google翻译性能更好的翻译服务「DeepL」，就是使用了CNN的技术。DNN或是CNN是用于再现「真人的感觉」最适合的方法，我最近看到了能阐释这件事的推文因此转载在这里。