当前位置: 主页 > AI教程 >

AI教程

ChatTTS克隆声音不像原声?相似度90%以上的AI配音教学来了

2024-07-20
Arjun
本站原创
上期ChatTTS克隆声音发出来后,不少朋友反馈,克隆声音不像原声。今天特意出一期新的克隆声音教学,让你的AI配音音色和原声相似度达到90%以上,不信你试试。
我们今天要来玩的,就是这个CosyVoice了,由阿里通义实验室开发的开源语音TTS项目。
通过本期的学习,你将收获3个知识点:
1、语音怎么克隆;
2、多国语言的相互转换;
3、CosyVoice模拟人类的自然语言,的语法如何控制。
一、CosyVoice语音克隆
下载CosyVoice的一件安装包,解压到任意位置,注意路径中,最好不要包含中文。
运行目录下的「运行-CosyVoice-300M.bat」,程序跑完之后,会自动在你的浏览器打开webui。
趁此机会,我们先来准备音频的Prompt。
打开剪映,把素材拖入工作轨道,拖动时间标记,按「I」给一个入点,再用「O」定一个出点,Ctrl+M,将音频导出。
注意,我推荐你删掉音频中停顿的部分,来达到更好的克隆的效果。
你可以直接在剪映中操作,或者用更专业的,比如adobe的Audition,选中音频中停顿的部分,按「Del」删除,再按Ctrl+S保存。
现在回到Cosyvioce webui中,在左侧的「推理模式」中选中「3s极速复刻」。
在此处上传编辑好的样音,接着向下,找到「输入prompt文本」,这里要输入音频文字信息,注意,要和音频保持一致。
你可以直接手打,也可以选择通过剪映的「识别音频字幕」的功能。
继续向下给这段克隆命个名,点击「保存zero-shot音色」,再点击「刷新新增音色」按钮,你就能在左侧的list中,找到刚刚保存的音色了。
接着,在页面顶部文本框中,输入你的文本。
向下卷动页面,点击「生成音频」,就搞定了。
二、CosyVoice多国语言生成
多国语言同理,将推理模式切换至「跨语种复刻」,然后在文本框内,输入语种的原文即可,测试汉语、英语、日语、韩语,以及汉语系的粤语效果是OK的,其他小语种的效果差强人意。
播放demo
三、CosyVoice自然语言控制
首先,我们关闭命令行窗口,重新运行目录下的「运行-CosyVoice-300M-Instruct.bat」
在webui中,选择推理模式为「自然语言控制」
粘贴你的文本,注意,CosyVoice目前对于克隆音色的自然语言控制效果并不好,所以这里推荐选择系统默认的「选择预训练音色」。
向下卷动到「prompt位置」,在第二行「instruct文本」这里,因为我们不需要情绪全局的控制,而是直接通过语法来学习更加细腻的情绪控制,所以在此,输入一个空格。
CosyVoice目前官方公开的语法有:
breath,停顿
laughter,笑声
strong,重音
该如何使用呢,我们以刚刚的文本举例。这里是还没加语法的原文。3种语法的代码都有2种格式,一种是用中括号,一种是用尖括号。区别在于,中括号是放在字后面的,比如说这里,在说完他之后会停顿,
在说完毕业的啊之后停顿并且发出笑声。
而尖括号,则可以更加细致的控制情绪,
用法就像这里一样,
我用strong把布鲁弗莱,
和双学士的双用尖括号括起来,
让AI分别用逻辑重音的方式来读布鲁弗莱和双。
尖括号laughter告诉AI具体哪几个字让他要笑着说。
好,我们拷贝加了语法之后的文本,来试试效果
以上就是本期的所有内容,特别声明,本教程仅作技术分享,AI的TTS固然很强大,但切记合理使用,以免后悔莫及。
感谢作者的开源,以及整合包的制作者。本期内容到此结束,希望对你有所帮助!