当前位置: 主页 > AI教程

AI教程

ChatTTS克隆声音不像原声？相似度90%以上的AI配音教学来了

2024-07-20

Arjun

本站原创

上期ChatTTS克隆声音发出来后，不少朋友反馈，克隆声音不像原声。今天特意出一期新的克隆声音教学，让你的AI配音音色和原声相似度达到90%以上，不信你试试。

我们今天要来玩的，就是这个CosyVoice了，由阿里通义实验室开发的开源语音TTS项目。

通过本期的学习，你将收获3个知识点：
1、语音怎么克隆；
2、多国语言的相互转换；
3、CosyVoice模拟人类的自然语言，的语法如何控制。

一、CosyVoice语音克隆

下载CosyVoice的一件安装包，解压到任意位置，注意路径中，最好不要包含中文。

运行目录下的「运行-CosyVoice-300M.bat」，程序跑完之后，会自动在你的浏览器打开webui。
趁此机会，我们先来准备音频的Prompt。
打开剪映，把素材拖入工作轨道，拖动时间标记，按「I」给一个入点，再用「O」定一个出点，Ctrl+M，将音频导出。

注意，我推荐你删掉音频中停顿的部分，来达到更好的克隆的效果。
你可以直接在剪映中操作，或者用更专业的，比如adobe的Audition，选中音频中停顿的部分，按「Del」删除，再按Ctrl+S保存。

现在回到Cosyvioce webui中，在左侧的「推理模式」中选中「3s极速复刻」。
在此处上传编辑好的样音，接着向下，找到「输入prompt文本」，这里要输入音频文字信息，注意，要和音频保持一致。
你可以直接手打，也可以选择通过剪映的「识别音频字幕」的功能。

继续向下给这段克隆命个名，点击「保存zero-shot音色」，再点击「刷新新增音色」按钮，你就能在左侧的list中，找到刚刚保存的音色了。
接着，在页面顶部文本框中，输入你的文本。
向下卷动页面，点击「生成音频」，就搞定了。
二、CosyVoice多国语言生成

多国语言同理，将推理模式切换至「跨语种复刻」，然后在文本框内，输入语种的原文即可，测试汉语、英语、日语、韩语，以及汉语系的粤语效果是OK的，其他小语种的效果差强人意。
播放demo

三、CosyVoice自然语言控制

首先，我们关闭命令行窗口，重新运行目录下的「运行-CosyVoice-300M-Instruct.bat」
在webui中，选择推理模式为「自然语言控制」

粘贴你的文本，注意，CosyVoice目前对于克隆音色的自然语言控制效果并不好，所以这里推荐选择系统默认的「选择预训练音色」。
向下卷动到「prompt位置」，在第二行「instruct文本」这里，因为我们不需要情绪全局的控制，而是直接通过语法来学习更加细腻的情绪控制，所以在此，输入一个空格。
CosyVoice目前官方公开的语法有：
breath，停顿
laughter，笑声
strong，重音