Vdun语音API如何调用GPT-SoVITS以及相关配置文件详细说明

编辑: admin 分类: Vdun语音 发布时间: 2025-02-21 来源:互联网

uu语音正式更名Vdun语音,敬请注意,故视频中提及到的UU语音均为未更名前制作,程序界面不变使用方法不变

视频部分



文字部分




本文详细介绍vdun语音API如何调用GPT-SoVITS以及相关配置文件详细说明,如果您是vdun语音的用户请各位一定要认真研读:

在阅读本文前您一定要认真阅读vdun语音采用api调用开源程序及优缺点分析一文,将为您之后的AI之路少走很多的弯路,我们也是拿出的时间为验证各个AI软件的实用性和效果,并为此花了大量的时间来验证,并将最后的结果告知大家。

AI作为当当今主流的发展方向,最终的方向都是用来造福人类,特别在教育和直播行业显得尤为突出。好了,话多得有点跑题了,下面言归正传。

前文说到在vdun语音的主程序的顶端
 
G-models代表GPT-SoVITS的相关调用   B-models代表bert-vist2的相关调用



如果您是GPT-SoVITS的新用户,刚了解到这个软件,那么您必须要了解GPT-SoVITS是一种当今主流的开源TTS软件,在音色和情感方向比较尤为出众。

vdun语音主程序以API的方式调用GPT-SoVITS,下面将详细介绍参数

在vdun语音主程序的目录下面的,CONFIG.INI文件下保存着当前正在使用的参数,软件每次启动时读取当前的参数,请记住,如果要使用GPT-SoVITS推理,一定要勾选启用按钮,如下图所示:



GPT-SoVITS的API调用及推理,下面的几个参数是必须的,缺一不可 ,下文的蓝色部分是注释

#gpt-sovits
参考语音=D:douyinmodalv2cankaov2jiaoshuinv333jiaoshuinv333.wav   
解释:参考语音,建议将参考语音保存在一个固定的文件,或者使用一个专门的文件夹来保存参考语音
 
参考文本=耐高温可以耐一百二十度,耐低温可以耐零下四十五度都没问题,是不是?
解释:参考语音的中文本
 
远程地址=http://192.168.2.200:9698/tts   
解释:这是GPT-SoVITS API地址,一般将192.168.2.200 修改为127.0.0.1或者当前局域网的IP,如果不会,请联系技术人员为您解决
 
主播=胶水女333 
解释:主播的名字,方便用户区别   
                
gpt语速=0.88     
解释:主播的语速,默认为1,一般在 0.8至1.2之间的调整,请大家根据实际情况调整
 
显存=24                    
解释:gpt-sovits调用所占用的显存batch_size大小,这里的24并不是实际占用24G显存,一般为 4,8,16,根据显卡显存的大小动态调整,或者调整为和显存大小一样

 
切割=cut3    
解释:切割方式,这里我建议使用cut3和cut5,不过 cut5有明显的停顿感,反而cut3更为合适,请大家根据实际情况调整。

#cut0 不切 
#cut1 凑四句一切 
#cut2   凑50字一切  
#cut3 按中文句号。切  
#cut4 按英文句号.切   
#cut5 按标点符号切  ',', '.', ';', '?', '!', '、', ',', '。', '?', '!', ';', ':', '…'


请注意,下面的参数可以在软件界面修改,或者在配置文件 CONFIG.INI  修改,如果在软件界面修改完后,一定要点一下 save保存,然后再一点一下reload 按钮重新加载。如下图所示




如果您是直接 CONFIG.INI 配置文件,修改完后一定要点一下reaload按钮重新加载。

为方便用切换语音主播,我们增加了切换语音主播的功能,在软件的界面有一个主播的下拉框,如下图所示:



该项的主要功能:可以直接加载我们设定好的参数,下次要调用的时候直接点一下即可以调用出来了,这个功能的参数保存在vdun语音主程序的peiyin.txt文本中,大家可以用记事本的方式打开。如下图所示:




打开文件后如下图所示,一行一个主播,用 | 分开,各项的意义即前面提到的参数,相信大家都已经看出来了,这里不再重复讲述 :



到这里关于vdun语音调用GPT-SoVITS的软件部分就设置就完成了。下面将详细介绍GPT-SoVITS 整合包的使用。

在此之前您应该先准备好相关的模型文件,其中包含 模型文件和语音参考文件,以及启动的批处理脚本,详细的说明如下:

1).PTH文件后缀的模型文件一个
2).CKPT文件后缀的模型文件一个
3).wav文件后缀的语音参考文件一个
4).yaml配置文件一个,该文件主要作用用于启动API接口重要配置文件(这个示例文件和相关的演示模型文件我们会在下载页面提供下载)
5).bat格式的批处理启动脚本文件,用于启动接口
6).txt格式的文件,该文件主要用户记录参考语音的文本,该文本非必须.

如下图所示


1).首先将 .ckpt 和.pth文件复制到我们固定的目录,这里已:D:/douyin/modalv2/GPTweightsv2 和  D:/douyin/modalv2/SoVITSweightsv2目录为例,

将baowenbei.ckpt复制到 D:/douyin/modalv2/GPTweightsv2 

将baowenbei.pth复制到 D:/douyin/modalv2/SoVITSweightsv2




然后打开baowenbe.yaml配置文件,将  t2s_weights_path 和   vits_weights_path 的路径修改为 ,注意不能弄反了,如下图所示



在软件的下载页面我们会提供GPT-SoVITS整合包的下载地址,在下载完整合包后,解压到D盘,然后打开整合包目录 ,将 baowenbei.yaml 配置文件复制到 D:/GPT/GPT_SoVITS/configs(整合包路径 )中

 
2).复制参考语音到指定的目录,这里已D:/douyin/modalv2/cankaov2为例

新建一个baowenbei的目录 ,将baowenbei.wav复制到 该目录下



 
3).最后打开 baowenbei.bat批处理,修改IP地址和端口及其它参数,具体如下:


title jiaoshuinv333 9698 
解释:软件启动标题,可以根据自己需要修改)
 
runtimepython.exe api_v2.py -a 192.168.2.200 -p 9698 -c GPT_SoVITS/configs/jiaoshuinv3339698.yaml

runtimepython.exe api_v2.py 
解释:默认就不要修改

192.168.2.200
解释:请修改为自己的IP地址或者 127.0.0.1

9698
解释:代表端口号 

jiaoshuinv3339698.yaml
解释:配置文件名称


修改好后,最后将后缀名为bat的文件复制到 GPT_SoVITS的根目录,最后双击批处理启动,至此, GPT_SoVITS  接口的API的配置就完成了。

最后一步:

peiyin.txt写出相关信息,方便下次直接调用!详见演示视频,比较简单,这里不再重复讲述。


考虑用户多为非计算机专业,所以该帮助文档多以普通用户的语言描述,如有不到之处,还敬请见谅!欢迎批评指正,我们将会做得更好!!

最后祝大家使用vdun软件拿到自己想要的结果。