魔音工坊已经出过很多配音教程了,不仅有官方的教程,也有很多魔友贡献的教程,知名的比如军哥的两个教程,东山分享的两个教程等。
本次分享,针对的是高阶用户,分享在魔音工坊的产品功能无法直接解决的情况下,怎么使用一些技巧来提高配音的效果。如果基本功还没到位的话,麻烦先系统阅读下魔音工坊的帮助文档。
这里总结下软件配音的几个常见问题:
1,数字和符号读错了。(这个魔音工坊已经提供了非常优雅的解决方案了,点击功能栏里的「数字符号」即可解决)
2,中文多音字读错了。(这个魔音工坊也提供了业界最佳解决方案了,点击功能栏里的「多音字」即可实现高效的多音字纠错)
3,英文单词读错了。(这个魔音工坊提供了部分解决方案,其他改进已在规划中)
4,断句不够完美,该断的时候没有断开,不该断开的时候断开了。(这个魔音工坊也提供了很完美的解决方案,点击功能栏里的「连读」即可)
5,停顿时长不够完美。(这个魔音工坊也提供了业界独创的解决方案,点击功能栏里的「停顿调节」,即可实现停顿的精细调节。粗粒度的调节,使用「插入静音」即可)
6,读出来的声音不够接近真人。
7,无法合成相关的文本,比如出现「呃呃呃呃呃」类似的声音。
8,不够情感化,通篇一个情绪,缺乏变化。
9,一些发音细节不够完美,比如轻声,儿化音,变调等。
10,长句子的配音,音量有起伏。
前面五个,魔音工坊里相当大部分的发音人,已经有比较好的方案了,比如小杰、魔天轮、魔阿彬、魔阿龙、军哥小冰、小依等。这里不再具体展开魔音工坊功能栏里的功能,还不熟悉的请参考帮助文档。下面针对部分不支持这些功能的发音人展开:
1,数字和符号读错了。
比如,360可能是「三百六十」也可能是「三六零」,这个最简单的方式就是把数字和符号修改为对应的汉字,也就是你怎么读,就修改为读法对应的汉字。不过这个方法有一些不足,因为书面文字一般是数字,而不是文字;同理,字幕有时候也想写成数字。比如「360公司的老板是周鸿祎」,如果字幕打成「三六零的老板是周鸿祎」,大家看字幕就会很困惑。
这里有一个解决方案,使用别名功能,将「360」设置别名为「三六零」,这样就可以同步解决掉合成和字幕的问题了。
2,中文多音字读错了。
这个一般修改为正确发音对应的汉字就行了,最好是选择只有一个发音的同音字。否则替换后的字,依然有可能预测错误。一般输入法都可以选择某个拼音对应的汉字列表,选择一个就行了(如果你的输入法打开了兼容模式,可能会出来一些发音近似的汉字,比如sh/s, zh/z可以兼容,输入法提供这个功能主要是为了解决拼音掌握不好的人的输入问题)。如果你不知道某个汉字怎么读,可以滑选这个汉字,点击「多音字」,即可看到这个汉字的发音,连百度都不需要。
有一些发音人因为本身普通话不够标准,尤其是个别音节,有自己的发音习惯,因此不一定发音特别标准。
3,英文单词读错了。
一般中文的语音合成系统,英文发音预测的准确率都没有中文做得好(国际巨头会好一些,因为国际业务比较多),这时候就可以手动输入英文单词的音标,以合成出比较好的效果。
中文发音人,本身的英文水平参差不齐,因为哪怕提供了正确的音标,也不一定可以合成出足够正确的发音,这个暂时没必要吹毛求疵,毕竟中国人有能力判断发音好坏的人也不多。
如果是面向海外用户的话,建议挑选那些道地的英文发音人。这些发音人的特点是,一般都无法配中文。不过目前魔音工坊的发音人,基本上中英文混读的效果都不错,相信比90%的魔友要优秀哦。
4,断句不够完美,该断的时候没有断开,不该断开的时候断开了。
碰到这种情况,一般可以选择使用书名号、引号、空格等标点符号。比如「创客贴是一个设计网站」,可能会被系统错误地断句为「创/客/贴/是/一个/设计/网站」,但是我们希望断句为「创客贴/是/一个/设计网站」,这时候可以试试这样修改
创客贴 是一个 设计网站
《创客贴》是一个 设计网站
“创客贴”是一个“设计网站
空格一般会让合成系统在这里断开(技术层面解释就是会影响分词结果),书名号和引号等,则一般会让书名号或引号里的文字成为一个词或者短语。
5,停顿时长不够完美。
这个平台自有的发音人,使用「停顿调节」功能就可以了。
有一些发音人没有特别好的办法。可以试试通过添加空格来调整,但是控制能力有限。魔音工坊里的小柔等发音人,目前就没有这方面精细控制的能力,暂时可以使用「插入静音」来模拟,不过我们已经在进行这方面的改进了,敬请期待。
下面我们来重点展开下魔音工坊还没有彻底解决的配音瑕疵问题。
6,读出来的声音不够接近真人。
目前魔音工坊的自有发音人,合成效果已经几乎媲美真人了,我们之前做过调研,让用户选择某一段音频是AI合成还是真人录音,基本上投票结果已经接近五五分了。魔音工坊的技术团队还在持续改进,随着技术的进步,未来会越来越以假乱真。
有一些发音人效果差一些,主要是使用的数据还不够好,可能发音人的数据是手机录音的,或者是录音棚的混响和噪声比较大。
还有一个问题是,部分发音人给人工智能系统训练的数据不足,导致学习到的效果不够精细。未来魔音工坊会持续加大数据规模,进一步迭代热门发音人的效果。
有一些发音人不够好,大家可以通过AU软件做一些后处理;或者加上必要的背景音乐,掩盖下合成声音的瑕疵。当然合成效果好,就好比素颜美女,不怎么化妆也依然貌美如花,丑媳妇就很为难用户了,怎么乔装打扮(AU处理)都上不了厅堂。
最后针对目前还没有很好解决办法的问题,再介绍下一些可能有效的规避技巧。
7,无法合成相关的文本,比如出现「呃呃呃呃呃」类似的声音。
目前的语音合成效果,之所以相比前几年有比较大的突破,是因为引入了深度学习技术。不过目前的一些模型,还有这样那样的一些小瑕疵。一般合成的效果是高度上下文相关的,我们修改下出现问题的句子,增删一些文字,都可能可以规避掉该问题,实在不行,就使用另一种表达方式,不要死磕一种句式,一个固定的说法。
确实不行的话,合成出几个孤立的词,使用AU软件处理下,修剪掉词汇之间的静音,简单拼接到一起吧。
8,不够情感化,通篇一个情绪,缺乏变化
目前魔音工坊上有很多发音人支持情感配音,比如小柔就支持七八种不同的情绪。影视解说里大热门的军哥小冰,最近也推出了「欢快」和「悲伤」这两种情感合成。
除了根据不同的文本,选择使用不同的情感外,也有一些技巧可以增强声音的变化。典型的方法是使用魔音工坊的「局部变速」,节奏快的时候,可以加速一下,稍微舒缓的场景,则可以降速。
另外, 文章里使用必要的标点符号,对改进合成效果也可能会有帮助。大家都知道,人类写作的时候,很多时候也是通过标点符号来强化情感的。
9,一些发音细节不够完美,比如轻声,儿化音,变调等。
魔音工坊在这方面推出了不少独家的功能,滑选汉字,点击「多音字」,可以选择对应的轻声。而三三变调现象,也可以使用「多音字」功能实现变调,变调为第二声,典型的例子是「勉强」,勉的发音其实是第三声,不过在勉强这个词里,是变调为第二声的。
而儿化音功能,则是滑选「儿」字,弹出的发音选项里,有「儿化」这个选择。
有一些发音人本身发音不够专业,不擅长儿化发音。很多南方人就不擅长儿化,因此部分发音人无法有效支持儿化,就很容易理解了。
10.长句子的配音,音量有起伏。
一般来说音量上单句高一些,长句稍低。这个可以通过拆分句子来实现。一般业界在训练智能语音合成模型的时候,往往都是使用比较短的句子。因此当输入的句子很长的时候,预测的结果就相对没那么好。通过简单的句法分析,做一下长句子分拆,合成后的句子往往就会比较好了。
如果合成后的效果还是不够好,可以用au对局部音频进行音量调节。
好了,本次分享比较枯燥,不过基本都是配音的干货,希望魔友们花时间多读两遍,并在实际配音中多做一些实践。如果大家掌握了这些技巧,还有无法解决的问题,欢迎大家在魔音的会员群里随时提问交流。相信虽然技术有不完美的地方,但是方法总是比问题多。
随着技术的进一步革新,魔音工坊的持续改进,以后本文提到的这些问题,也会有越来越好的解决方案。
友情链接:
Copyright © 2022 世界杯预选赛亚洲区_高达世界杯 - fzxzyy.com All Rights Reserved.