天天动画片 > 八卦谈 > 现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIO AI」

现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIO AI」

八卦谈 佚名 2024-03-16 00:35:17

笔者最后更新:2023/4/27
文章编辑最后日期:2023/7/10


在2023.7.7日的两周年生日活动时公开了SV AI的声库制作决定。

KAFU目前有CeVIO AI /Synthesizer V 两个声库版本


这是2021 CCC 圣诞日历活动第二十天的文章。

 

我是KALTE。是一名作曲家。


虽然这么说有点突然,我还挺喜欢UTAU来着。在之前也有稍微写过关于UTAU的文章。

我所推荐的UTAU音源6选
https://note.com/kalte/n/nb5a8fb3b0f2a


虽然最近不怎么能看到了,大概5年前左右出现过大量的以使用重音teto和暗音renri等等为首的UTAU的良曲,我觉得当时被这种近似人类一样的歌唱方法所震撼到的听众也不少。ポリスピカデリー(PolicePiccadilly)的「ナーヴ・インパルス」之类的,这种曲子达到过能让没有听过暗音renri唱歌的人没有办法判断和人声区别的程度……

 

在此处,不知道可不可以讲一点当UTAU听众的话经常会有的感受。

虽说这是在niconico上经常会出现的弹幕……


「调教好厉害!!真的是vocaloid吗!?」


就是这条。

 

尽管从听众这边出发看UTAU的认知度较低也是没有办法,但是VOCALOID和UTAU是不同独立的声音合成技术,VOCALOID≠UTAU这一点从UTAU发行以来经过了13年的今天也没有传播渗透开来确实让人很着急。

 

从作曲者角度出发,有着VOCALOID虽然是付费的但是从一般人看来音源(初音未来、镜音铃之类的这些声音的种类)的认知度较高,然后UTAU虽然是免费的但是音源的认知度和质量与VOCALOID相比逊色这些明确的区别(虽然如果是优秀的UTAU音源通过调声可以获得凌驾于VOCALOID之上的性能)。因为没有创作过曲子的人不了解这些也是正常的,但如果搞错了的人可以借此机会记一下哦。

 

嘛暂且搁置一下这个话题,今年(2021年)1月新的声音合成软件「CeVIO AI」被公开了。

 


实际上从2021年一开始「结月缘 丽」还有「IA -ARIA ON THE PLANETES-」这样使用了CeVIO AI的音源就早已公开,但是让CeVIO AI名声大噪的大概是,以KAMITSUBAKI STUDIO所属的花谱为原型于2021年7月7日登场的「可不」吧。

 

https://kaf-u.kamitsubaki.jp/

之前平时就有在听花谱的曲子,所以在正式发售之前我就在想「KAMITSUBAKI STUDIO,你做的好啊……」,一直有在听她的demo曲。

 

但是,在音源正式发售之后不久,在某位的推广广告中看到了有着这样标题的视频。

 

「○○○(曲名)/△△△(作曲者名)feat.可不【vocaloid原创曲】」

 

喂!!!!!!!

 

听众就算了,使用者在这种地方犯错可不行吧!!!!!!!

 

嘛,就因此变成这么٩(๑`^´๑)۶生气了。我还想是不是因为想要让播放量增加才故意写成这样的呢……

 

上面说了这么多开场白有点长了,而我想让请大家重新认知一下「CeVIO AI」是什么,因此写下了这篇文章。我会仔细说明,哪怕之前相关知识为零也能明白,可以的话请读到最后吧。


 

所谓TTS

 

在讲到CeVIO的话题之前,不知道大家对TTS这一词了解吗。

 

TTS是Text to Speech的略称,用日语说来就是「音声合成」(中文的话是【语音合成】)。之前说到的VOCALOID,UTAU,CeVIO AI都是TTS的一种。顺带一提,VOICEROID(结月缘、绁星灯之类的)这样的语音特化的音源也被称作是TTS。

 

接下来将会把TTS的例子按照初版发行的顺序先依次列举如下。

 

VOCALOID(2004年/歌唱特化)

 


SofTalk(2006年/语音特化)

 


UTAU(2008年/歌唱特化)※非生物音源除外

 


VOICEROID(2009年/语音特化)

 


Synthesizer V(2018年/歌唱特化)

 

CeVIO AI(2021年/歌唱·语音特化)

 


其他的话还有NEUTRINO(2020年)或者CoeFont(2021年)之类的音源,列举下去就没完没了了。不知道「ゆっくりボイス」正式名称的人应该也有很多吧。(答:SofTalk,详见ニコニコ百科) 

 

虽然偶尔也会有人认为UTAU或是CeVIO AI是与VOCALOID相同的,或者是属于被VOCALOID所概括的软件群体,但正如最开始所说,这三款软件是独立的声音合成技术,因此这种看法完全是错误的。

 

VOCALOID是由雅马哈这样的「企业」,CeVIO AI是由CeVIO Project这样的「企业团体」,UTAU是由叫做飴屋P的「个人」所研发出的。如果想要将这三款软件组合在一起谈及的话,不应该是使用VOCALOID而是应该使用歌声合成软件或者是歌声合成技术(Singing Voice Synthesis; SVS)这样的词才是正确的。(包括CeVIO AI这样只存在语音特化的音源。合成语音的技术也被称作文本到语音(Text to Speech; TTS)

 

「初音未来」「镜音铃」这样的角色名称,严格来讲,与其说是在TTS下属的分类,不如说是在「VOCALOID」这一声音合成软件内部分类下的音源,也就是音源的种类

 

对于音源,如果和研发软件的各家企业(比如说对于VOCALOID就是雅马哈)签订了许可合同之后独自开发和销售也是可以的。比如稲葉曇的「ラグドレイン」,ゆこぴ的「强风大背头」,其中使用的歌爱雪这一音源,就不是由YAMAHA而是叫做AHS的企业发售的。

 

VOCALOID 4 歌爱yuki | AHS(AH-Software)

https://www.ah-soft.com/vocaloid/yuki/


虽然从了解的人看来可能很理所当然的,实际上初音未来或是镜音铃这些代表性的VOCALOID的开发公司也不是雅马哈而是一家叫做Crypton・Future・Media的公司。雅马哈,意外地在音源方面并没有研发出那么多东西,有名的也许就是buzzG的「Fairytale,」的翻唱中的VY1V4这种程度……

 

各软件的音源的例子我也暂且先写出来(除了SofTalk)。

 

◆VOCALOID:初音未来,镜音铃,镜音连,巡音luka等等

UTAU:重音teto,暗音renri,雪歌yufu,波音律等等

VOICEROID:结月缘,绁星灯,琴叶茜,琴叶葵等等

Synthesizer V:小春六花,弦卷maki,Saki等等

CeVIO AI:可不,佐藤莎莎拉,小春六花,星界,#KZN等等


(译注:其中,Synthesizer V也有赤羽艾可这样的中文音源https://dreamtonics.com/synthesizerv/,CeVIO AI详见萌娘百科https://zh.moegirl.org.cn/CeVIO))

 

「小春六花为什么同时存在于CeVIO AI和Synthesizer V两边呢?」虽然容易产生这样的疑问,但是这并不是笔误,而是因为同时存在「CeVIO AI的小春六花」和「Synthesizer V的小春六花」。在这种情况下,CeVIO AI是语音特化,Synthesizer V是歌唱特化的小春六花。说话的小春六花是以下视频这种感觉。

 

和Kanaria的Synthesizer V小春六花的表情差太多了有点搞笑哈。

 

我觉得看了刚刚GYARI的视频的人就能了解,也存在着结月缘、绁星灯这样横跨多个软件的音源。东北kiritan(切蒲英)在其中是数一数二地复杂,能够使用的软件如UTAU,VOICEROID,CeVIO AI,NEUTRINO等多得要死(因此对于音源就不得不获取·购买各种各样的软件)。还要开始考虑到版本的区别的话就更没完没了了。

 

顺带一提SofTalk有点特别,「博丽灵梦」「雾雨魔理沙」这样的名字实际上在软件内并没有写着,比如说选择灵梦的话就要按照「声质=女性1,音程=100,速度=100」这样的设定。东方Project的角色名称完全是之后标上去的。标准来自于这个网站。

 

Nicotalk&角色素材分发处
http://www.nicotalk.com/charasozai_kt.html

 

把到此为止的东西总结一下,老实说尽管对于听众的话对于音源种类记不太得也没什么问题,但是可能会产生在文章开头所说过的那样的词语的误用,事先了解一下也没什么坏处。对于制作实况视频和音轨的各位,希望你们一定能了解这些所说的软件和音源的区别。

 

所谓CeVIO

 

那么,尽管差不多想开始说说CeVIO AI了,但是对在其前面的「CeVIO」还得说明一下。CeVIO AI是如上述音声合成技术的一种,而CeVIO这个词有着一下两种含义。

 

1.  由视频·音乐创作者团体和持有声音合成·歌声合成技术的技术人员团体实行的项目

2.  作为上述项目的一部分被发行的TTS,也就是「CeVIO Creative Studio」和「CeVIO AI」这些。

 

CeVIO Creative Studio简单地说,就是CeVIO AI的前身,发行于2013年。我使用CeVIO 这个词的时候,为了与CeVIO AI区分更多的是使用了上述1的含义。或者是就以「CeVIO Project」这样称呼。

 

虽然写着「创作者团体」「技术人员团体」,但是基本上这些都是企业。大概地说,创作这一方面主要是V-Sync和Frontier Works这两家公司,技术方面主要是Techno-speech来担任。Techno-speech,是进行着最前端的TTS研究的名古屋工业大学内的创业公司。

 

将要说明的主要包含类似于以下这些的项目。CeVIO AI当然也包含在这之中,但是将会在第3章说明。

 

CeVIO Vision(2013)

 

这个项目主要是在数字展板上进行双方向的会话。下面视频中是秋叶原的Animate店中叫做「佐藤莎莎拉」的角色在说话的样子。就像是聊天机器人一样的东西。

 

 

CeVIO Creative Studio(2013)

 

作为TTS的一种,既能够唱歌也能说话。技术上使用了HMM(隐藏马尔科夫模型,译者注:一种可以分析时序信息的统计和机器学习中常见模型)的方法。也经常被略称为「CeVIO CS」。

 


VoiSona(2022)

 


虽然现有的CeVIO Creative Studio和CeVIO AI是独立运作的软件,但它可以将CeVIO的功能如同VOCALOID一样在DAW(译者注:数字音乐工作站,一般也称宿主软件,大多数的音源、合成器都需要插入宿主软件中才能工作)中以VSTi插件(虚拟乐器技术插件)形式使用。

 

上面的话换个说法来讲,VoiSona发布之前CeVIO AI用户是先在CeVIO AI的软件中输出歌唱文件,再把它导入到DAW的vocal音轨中。也就是说CeVIO AI是在DAW软件的外部启动,开着CeVIO AI和DAW两个软件进行操作,因为CeVIO AI中对vocal输出的更改无法即时在DAW中反应,在制作过程中非常折磨。(因为界面都是分开的)


为了解决这一问题,VoiSona应运而生(也就是CeVIO AI的VSTi插件化)。

VSTi插件基本都是打开DAW软件后,再在DAW中作为子程序启动。这样一来,在VoiSona中进行的修正,会在DAW中即时变更,大大提升了编辑反馈的效率。对于不作曲的人来说没有特别的好处,但是对于音轨制作者来说是否能在DAW内直接操作vocal音源决定了工作效率,是非常重要的因素。



不过较为可惜的是,目前可不等现有CeVIO AI音源无法在DAW中进行使用。而是默认添加了「知声(Chis-A)」这一音源。CeVIO AI都是收费的,不过这一款可以免费使用。(如果想要使用AiSuu和#kzn等其他音源时需要购买另外的音源软件许可证。)



所谓CeVIO AI

 

CeVIO AI是上述的项目中登场的一种TTS。其中有只能用于唱歌的音源,也有只能用于语音的音源,还有两边都能使用的音源。这一点和CeVIO Creative Studio是一样的。

 

作为差别的地方,刚刚写到CeVIO Creative Studio使用了HMM,这边CeVIO AI则是使用了DNN(deep neutral network,深层神经网络)或者CNN(convolution neutral network,卷积神经网络)的方法。一言以蔽之,也就是「深度学习」这一技术。虽然HMM也是深度学习。

 

省略掉算法的解释说明,简单而言,该系统使用计算机根据录制的声音创建「歌手个性」的模型,即使有未知的文本(音乐创作中的歌词输入阶段)输入,人工智能技术也能输出再现歌手个性的声音。 神经网络(neutral network),顾名思义,使用计算机网络来模拟人脑的结构。 如果你对数学有点自信,可以去查一查。


所说的DNN或是CNN方法本身虽然之前就有,但是在CeVIO Creative Studio发行2年之后的2015年左右急速发展,开始在不仅限于TTS而是广阔的领域中都有所应用。

 

比如说被评价为比Google翻译性能更好的翻译服务「DeepL」,就是使用了CNN的技术。DNN或是CNN是用于再现「真人的感觉」最适合的方法,我最近看到了能阐释这件事的推文因此转载在这里。


推文引用:将Google老师翻译成英语的东西再交给DeepL老师翻译,因为DeepL太能够翻译出语气和气氛了因此汇报给大家看。到底是怎么才能明白的呢……

-あらら
本文标题:现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIO AI」 - 八卦谈
本文地址:www.ttdhp.com/article/51104.html

天天动画片声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
扫码关注我们