哈喽大家好,我是ai吧教学日记的朴老师,大家在使用gptsovits的时候,是不是遇到了gptsovits克隆出来的声音不像,不管怎么操作相差都很大的问题呢?想要提升声音的相似度,其实很简单,现在就给大家整理原因和解决方法,和我一起往下看看吧。
相似度低的原因:
首先我们需要了解gptsovits生成推理的原理是什么,在进行推理生成的时候,需要分析我们提供(上传)的参考音频的特点,然后根据此特点进行模仿,但前提是提供的样本必须是干净的,也就是我们常说的干音,如果样本参考有杂音噪音,是会直接影响到最后的生成结果的。
换句话说,就是样本的干扰音过多,影响了ai的推理判断结果,所以导致最后克隆出来的声音不像。
如何提升相似度:
使用剪辑软件预处理参考音频,将原音频的杂音尽可能全部去掉,杂音包括本人说话的回声、电流麦、喷麦的声音、动物叫声、风声、本人以外其他人说话的声音、背景音乐、歌声等等。这里以剪映为例,简单教大家如何去除杂音。
1、选中需要处理的音频。
2、右边基础选项选中音频降噪以及人声分离等待处理完成。
3、点击右上角导出,格式选择wav格式点击导出即可。
虽然前面提供的方法能够大幅度提升声音的相似度,解决gptsovits克隆出来的声音不像的问题,但是由于gptsovits自身的缺陷,想要再进一步提升就很困难了,若是配置足够,我更推荐大家使用cosyvoice,本期内容到这里就结束了,想要了解更多ai教程,关注ai吧网站,持续为大家更新。