笔者最后更新:2023/4/27
文章编辑最后日期:2023/7/10
在2023.7.7日的两周年生日活动时公开了SV AI的声库制作决定。
KAFU目前有CeVIO AI /Synthesizer V 两个声库版本
这是2021 CCC 圣诞日历活动第二十天的文章。
我是KALTE。是一名作曲家。
虽然这么说有点突然,我还挺喜欢UTAU来着。在之前也有稍微写过关于UTAU的文章。
我所推荐的UTAU音源6选
https://note.com/kalte/n/nb5a8fb3b0f2a
虽然最近不怎么能看到了,大概5年前左右出现过大量的以使用重音teto和暗音renri等等为首的UTAU的良曲,我觉得当时被这种近似人类一样的歌唱方法所震撼到的听众也不少。ポリスピカデリー(PolicePiccadilly)的「ナーヴ・インパルス」之类的,这种曲子达到过能让没有听过暗音renri唱歌的人没有办法判断和人声区别的程度……
在此处,不知道可不可以讲一点当UTAU听众的话经常会有的感受。
虽说这是在niconico上经常会出现的弹幕……
「调教好厉害!!真的是vocaloid吗!?」
就是这条。
尽管从听众这边出发看UTAU的认知度较低也是没有办法,但是VOCALOID和UTAU是不同独立的声音合成技术,VOCALOID≠UTAU这一点从UTAU发行以来经过了13年的今天也没有传播渗透开来确实让人很着急。
从作曲者角度出发,有着VOCALOID虽然是付费的但是从一般人看来音源(初音未来、镜音铃之类的这些声音的种类)的认知度较高,然后UTAU虽然是免费的但是音源的认知度和质量与VOCALOID相比逊色这些明确的区别(虽然如果是优秀的UTAU音源通过调声可以获得凌驾于VOCALOID之上的性能)。因为没有创作过曲子的人不了解这些也是正常的,但如果搞错了的人可以借此机会记一下哦。
嘛暂且搁置一下这个话题,今年(2021年)1月新的声音合成软件「CeVIO AI」被公开了。
实际上从2021年一开始「结月缘 丽」还有「IA -ARIA ON THE PLANETES-」这样使用了CeVIO AI的音源就早已公开,但是让CeVIO AI名声大噪的大概是,以KAMITSUBAKI STUDIO所属的花谱为原型于2021年7月7日登场的「可不」吧。
之前平时就有在听花谱的曲子,所以在正式发售之前我就在想「KAMITSUBAKI STUDIO,你做的好啊……」,一直有在听她的demo曲。
但是,在音源正式发售之后不久,在某位的推广广告中看到了有着这样标题的视频。
「○○○(曲名)/△△△(作曲者名)feat.可不【vocaloid原创曲】」
喂!!!!!!!
听众就算了,使用者在这种地方犯错可不行吧!!!!!!!
嘛,就因此变成这么٩(๑`^´๑)۶生气了。我还想是不是因为想要让播放量增加才故意写成这样的呢……
上面说了这么多开场白有点长了,而我想让请大家重新认知一下「CeVIO AI」是什么,因此写下了这篇文章。我会仔细说明,哪怕之前相关知识为零也能明白,可以的话请读到最后吧。
在讲到CeVIO的话题之前,不知道大家对TTS这一词了解吗。
TTS是Text to Speech的略称,用日语说来就是「音声合成」(中文的话是【语音合成】)。之前说到的VOCALOID,UTAU,CeVIO AI都是TTS的一种。顺带一提,VOICEROID(结月缘、绁星灯之类的)这样的语音特化的音源也被称作是TTS。
接下来将会把TTS的例子按照初版发行的顺序先依次列举如下。
VOCALOID(2004年/歌唱特化)
SofTalk(2006年/语音特化)
UTAU(2008年/歌唱特化)※非生物音源除外
VOICEROID(2009年/语音特化)
Synthesizer V(2018年/歌唱特化)
CeVIO AI(2021年/歌唱·语音特化)
其他的话还有NEUTRINO(2020年)或者CoeFont(2021年)之类的音源,列举下去就没完没了了。不知道「ゆっくりボイス」正式名称的人应该也有很多吧。(答:SofTalk,详见ニコニコ百科)
虽然偶尔也会有人认为UTAU或是CeVIO AI是与VOCALOID相同的,或者是属于被VOCALOID所概括的软件群体,但正如最开始所说,这三款软件是独立的声音合成技术,因此这种看法完全是错误的。
VOCALOID是由雅马哈这样的「企业」,CeVIO AI是由CeVIO Project这样的「企业团体」,UTAU是由叫做飴屋P的「个人」所研发出的。如果想要将这三款软件组合在一起谈及的话,不应该是使用VOCALOID而是应该使用歌声合成软件或者是歌声合成技术(Singing Voice Synthesis; SVS)这样的词才是正确的。(包括CeVIO AI这样只存在语音特化的音源。合成语音的技术也被称作文本到语音(Text to Speech; TTS))
「初音未来」「镜音铃」这样的角色名称,严格来讲,与其说是在TTS下属的分类,不如说是在「VOCALOID」这一声音合成软件内部分类下的音源,也就是音源的种类。
对于音源,如果和研发软件的各家企业(比如说对于VOCALOID就是雅马哈)签订了许可合同之后独自开发和销售也是可以的。比如稲葉曇的「ラグドレイン」,ゆこぴ的「强风大背头」,其中使用的歌爱雪这一音源,就不是由YAMAHA而是叫做AHS的企业发售的。
VOCALOID 4 歌爱yuki | AHS(AH-Software)
虽然从了解的人看来可能很理所当然的,实际上初音未来或是镜音铃这些代表性的VOCALOID的开发公司也不是雅马哈而是一家叫做Crypton・Future・Media的公司。雅马哈,意外地在音源方面并没有研发出那么多东西,有名的也许就是buzzG的「Fairytale,」的翻唱中的VY1V4这种程度……
各软件的音源的例子我也暂且先写出来(除了SofTalk)。
◆VOCALOID:初音未来,镜音铃,镜音连,巡音luka等等
◆UTAU:重音teto,暗音renri,雪歌yufu,波音律等等
◆VOICEROID:结月缘,绁星灯,琴叶茜,琴叶葵等等
◆Synthesizer V:小春六花,弦卷maki,Saki等等
◆CeVIO AI:可不,佐藤莎莎拉,小春六花,星界,#KZN等等
(译注:其中,Synthesizer V也有赤羽艾可这样的中文音源https://dreamtonics.com/synthesizerv/,CeVIO AI详见萌娘百科https://zh.moegirl.org.cn/CeVIO))
「小春六花为什么同时存在于CeVIO AI和Synthesizer V两边呢?」虽然容易产生这样的疑问,但是这并不是笔误,而是因为同时存在「CeVIO AI的小春六花」和「Synthesizer V的小春六花」。在这种情况下,CeVIO AI是语音特化,Synthesizer V是歌唱特化的小春六花。说话的小春六花是以下视频这种感觉。
和Kanaria的Synthesizer V小春六花的表情差太多了有点搞笑哈。
我觉得看了刚刚GYARI的视频的人就能了解,也存在着结月缘、绁星灯这样横跨多个软件的音源。东北kiritan(切蒲英)在其中是数一数二地复杂,能够使用的软件如UTAU,VOICEROID,CeVIO AI,NEUTRINO等多得要死(因此对于音源就不得不获取·购买各种各样的软件)。还要开始考虑到版本的区别的话就更没完没了了。
顺带一提SofTalk有点特别,「博丽灵梦」「雾雨魔理沙」这样的名字实际上在软件内并没有写着,比如说选择灵梦的话就要按照「声质=女性1,音程=100,速度=100」这样的设定。东方Project的角色名称完全是之后标上去的。标准来自于这个网站。
Nicotalk&角色素材分发处
http://www.nicotalk.com/charasozai_kt.html
把到此为止的东西总结一下,老实说尽管对于听众的话对于音源种类记不太得也没什么问题,但是可能会产生在文章开头所说过的那样的词语的误用,事先了解一下也没什么坏处。对于制作实况视频和音轨的各位,希望你们一定能了解这些所说的软件和音源的区别。
那么,尽管差不多想开始说说CeVIO AI了,但是对在其前面的「CeVIO」还得说明一下。CeVIO AI是如上述音声合成技术的一种,而CeVIO这个词有着一下两种含义。
1. 由视频·音乐创作者团体和持有声音合成·歌声合成技术的技术人员团体实行的项目
2. 作为上述项目的一部分被发行的TTS,也就是「CeVIO Creative Studio」和「CeVIO AI」这些。
CeVIO Creative Studio简单地说,就是CeVIO AI的前身,发行于2013年。我使用CeVIO 这个词的时候,为了与CeVIO AI区分更多的是使用了上述1的含义。或者是就以「CeVIO Project」这样称呼。
虽然写着「创作者团体」「技术人员团体」,但是基本上这些都是企业。大概地说,创作这一方面主要是V-Sync和Frontier Works这两家公司,技术方面主要是Techno-speech来担任。Techno-speech,是进行着最前端的TTS研究的名古屋工业大学内的创业公司。
将要说明的主要包含类似于以下这些的项目。CeVIO AI当然也包含在这之中,但是将会在第3章说明。
CeVIO Vision(2013)
这个项目主要是在数字展板上进行双方向的会话。下面视频中是秋叶原的Animate店中叫做「佐藤莎莎拉」的角色在说话的样子。就像是聊天机器人一样的东西。
CeVIO Creative Studio(2013)
作为TTS的一种,既能够唱歌也能说话。技术上使用了HMM(隐藏马尔科夫模型,译者注:一种可以分析时序信息的统计和机器学习中常见模型)的方法。也经常被略称为「CeVIO CS」。
VoiSona(2022)
虽然现有的CeVIO Creative Studio和CeVIO AI是独立运作的软件,但它可以将CeVIO的功能如同VOCALOID一样在DAW(译者注:数字音乐工作站,一般也称宿主软件,大多数的音源、合成器都需要插入宿主软件中才能工作)中以VSTi插件(虚拟乐器技术插件)形式使用。
上面的话换个说法来讲,VoiSona发布之前CeVIO AI用户是先在CeVIO AI的软件中输出歌唱文件,再把它导入到DAW的vocal音轨中。也就是说CeVIO AI是在DAW软件的外部启动,开着CeVIO AI和DAW两个软件进行操作,因为CeVIO AI中对vocal输出的更改无法即时在DAW中反应,在制作过程中非常折磨。(因为界面都是分开的)
为了解决这一问题,VoiSona应运而生(也就是CeVIO AI的VSTi插件化)。
VSTi插件基本都是打开DAW软件后,再在DAW中作为子程序启动。这样一来,在VoiSona中进行的修正,会在DAW中即时变更,大大提升了编辑反馈的效率。对于不作曲的人来说没有特别的好处,但是对于音轨制作者来说是否能在DAW内直接操作vocal音源决定了工作效率,是非常重要的因素。
不过较为可惜的是,目前可不等现有CeVIO AI音源无法在DAW中进行使用。而是默认添加了「知声(Chis-A)」这一音源。CeVIO AI都是收费的,不过这一款可以免费使用。(如果想要使用AiSuu和#kzn等其他音源时需要购买另外的音源软件许可证。)
CeVIO AI是上述的项目中登场的一种TTS。其中有只能用于唱歌的音源,也有只能用于语音的音源,还有两边都能使用的音源。这一点和CeVIO Creative Studio是一样的。
作为差别的地方,刚刚写到CeVIO Creative Studio使用了HMM,这边CeVIO AI则是使用了DNN(deep neutral network,深层神经网络)或者CNN(convolution neutral network,卷积神经网络)的方法。一言以蔽之,也就是「深度学习」这一技术。虽然HMM也是深度学习。
省略掉算法的解释说明,简单而言,该系统使用计算机根据录制的声音创建「歌手个性」的模型,即使有未知的文本(音乐创作中的歌词输入阶段)输入,人工智能技术也能输出再现歌手个性的声音。 神经网络(neutral network),顾名思义,使用计算机网络来模拟人脑的结构。 如果你对数学有点自信,可以去查一查。
所说的DNN或是CNN方法本身虽然之前就有,但是在CeVIO Creative Studio发行2年之后的2015年左右急速发展,开始在不仅限于TTS而是广阔的领域中都有所应用。
比如说被评价为比Google翻译性能更好的翻译服务「DeepL」,就是使用了CNN的技术。DNN或是CNN是用于再现「真人的感觉」最适合的方法,我最近看到了能阐释这件事的推文因此转载在这里。
「艾尔登法环」梅琳娜手办开订 立体手办▪
万代「艾尔登法环」白狼战鬼手办开订 立体手办▪
「夏目友人帐」猫咪老师粘土人开订 立体手办▪
「五等分的新娘∬」中野三玖·白无垢版手办开订 立体手办▪
「海贼王」乌索普Q版手办开订 立体手办▪
良笑社「初音未来」新手办开订 立体手办▪
「黑岩射手DAWN FALL」死亡主宰手办开订 立体手办▪
「盾之勇者成名录」菲洛手办登场 立体手办▪
「魔法少女小圆」美树沙耶香手办开订 立体手办▪
「咒术回战」七海建人粘土人登场 立体手办▪
「五等分的新娘」中野二乃白无垢手办开订 立体手办▪
「为美好的世界献上祝福!」芸芸粘土人开订 立体手办▪
「公主连结 与你重逢」六星可可萝手办开订 立体手办▪
「女神异闻录5」Joker雨宫莲手办开订 立体手办▪
「间谍过家家」约尔・福杰粘土人登场 立体手办▪
「街角魔族 2丁目」吉田优子手办开订 立体手办▪
「火影忍者 疾风传」旗木卡卡西·暗部版粘土人登场 立体手办▪
「佐佐木与宫野」宫野由美粘土人开订 立体手办▪
「盾之勇者成名录」第2季拉芙塔莉雅手办开订 立体手办▪
「咒术回战」两面宿傩Q版坐姿手办开订 立体手办▪
「DATE·A·BULLET」时崎狂三手办开订 立体手办▪
「狂赌之渊××」早乙女芽亚里粘土人开订 立体手办▪
「魔道祖师」魏无羨粘土人开订 立体手办▪
「新·奥特曼」奥特曼手办现已开订 立体手办▪