Vdun语音API如何调用GPT-SoVITS以及相关配置文件详细说明

编辑: admin 分类: Vdun语音发布时间: 2025-02-21 来源:互联网

uu语音正式更名Vdun语音，敬请注意，故视频中提及到的UU语音均为未更名前制作，程序界面不变使用方法不变

视频部分

文字部分

本文详细介绍vdun语音API如何调用GPT-SoVITS以及相关配置文件详细说明，如果您是vdun语音的用户请各位一定要认真研读：

在阅读本文前您一定要认真阅读vdun语音采用api调用开源程序及优缺点分析一文，将为您之后的AI之路少走很多的弯路，我们也是拿出的时间为验证各个AI软件的实用性和效果，并为此花了大量的时间来验证，并将最后的结果告知大家。

AI作为当当今主流的发展方向，最终的方向都是用来造福人类，特别在教育和直播行业显得尤为突出。好了，话多得有点跑题了，下面言归正传。

前文说到在vdun语音的主程序的顶端

G-models代表GPT-SoVITS的相关调用 B-models代表bert-vist2的相关调用

如果您是GPT-SoVITS的新用户，刚了解到这个软件,那么您必须要了解GPT-SoVITS是一种当今主流的开源TTS软件，在音色和情感方向比较尤为出众。

vdun语音主程序以API的方式调用GPT-SoVITS，下面将详细介绍参数

在vdun语音主程序的目录下面的，CONFIG.INI文件下保存着当前正在使用的参数，软件每次启动时读取当前的参数，请记住，如果要使用GPT-SoVITS推理，一定要勾选启用按钮，如下图所示：

GPT-SoVITS的API调用及推理，下面的几个参数是必须的，缺一不可，下文的蓝色部分是注释

#gpt-sovits

参考语音=D:douyinmodalv2cankaov2jiaoshuinv333jiaoshuinv333.wav
解释：参考语音，建议将参考语音保存在一个固定的文件，或者使用一个专门的文件夹来保存参考语音

参考文本=耐高温可以耐一百二十度，耐低温可以耐零下四十五度都没问题，是不是？
解释：参考语音的中文本

远程地址=http://192.168.2.200:9698/tts
解释：这是GPT-SoVITS API地址，一般将192.168.2.200 修改为127.0.0.1或者当前局域网的IP，如果不会，请联系技术人员为您解决

主播=胶水女333
解释：主播的名字，方便用户区别

gpt语速=0.88
解释：主播的语速，默认为1，一般在 0.8至1.2之间的调整，请大家根据实际情况调整

显存=24
解释：gpt-sovits调用所占用的显存batch_size大小，这里的24并不是实际占用24G显存，一般为 4，8，16，根据显卡显存的大小动态调整，或者调整为和显存大小一样

切割=cut3
解释：切割方式，这里我建议使用cut3和cut5,不过 cut5有明显的停顿感，反而cut3更为合适，请大家根据实际情况调整。

#cut0 不切

#cut1 凑四句一切

#cut2 凑50字一切

#cut3 按中文句号。切

#cut4 按英文句号.切

#cut5 按标点符号切 ',', '.', ';', '?', '!', '、', '，', '。', '？', '！', ';', '：', '…'

请注意，下面的参数可以在软件界面修改，或者在配置文件 CONFIG.INI 修改，如果在软件界面修改完后，一定要点一下 save保存,然后再一点一下reload 按钮重新加载。如下图所示

如果您是直接 CONFIG.INI 配置文件，修改完后一定要点一下reaload按钮重新加载。

为方便用切换语音主播，我们增加了切换语音主播的功能，在软件的界面有一个主播的下拉框，如下图所示：

该项的主要功能：可以直接加载我们设定好的参数，下次要调用的时候直接点一下即可以调用出来了，这个功能的参数保存在vdun语音主程序的peiyin.txt文本中，大家可以用记事本的方式打开。如下图所示：

打开文件后如下图所示，一行一个主播，用 | 分开，各项的意义即前面提到的参数，相信大家都已经看出来了，这里不再重复讲述 ：

到这里关于vdun语音调用GPT-SoVITS的软件部分就设置就完成了。下面将详细介绍GPT-SoVITS 整合包的使用。

在此之前您应该先准备好相关的模型文件，其中包含模型文件和语音参考文件，以及启动的批处理脚本，详细的说明如下：

1）.PTH文件后缀的模型文件一个
2）.CKPT文件后缀的模型文件一个
3）.wav文件后缀的语音参考文件一个
4）.yaml配置文件一个，该文件主要作用用于启动API接口重要配置文件（这个示例文件和相关的演示模型文件我们会在下载页面提供下载）
5）.bat格式的批处理启动脚本文件，用于启动接口
6）.txt格式的文件，该文件主要用户记录参考语音的文本，该文本非必须.

如下图所示

1).首先将 .ckpt 和.pth文件复制到我们固定的目录，这里已:D:/douyin/modalv2/GPTweightsv2 和 D:/douyin/modalv2/SoVITSweightsv2目录为例，

将baowenbei.ckpt复制到 D:/douyin/modalv2/GPTweightsv2

将baowenbei.pth复制到 D:/douyin/modalv2/SoVITSweightsv2

然后打开baowenbe.yaml配置文件，将 t2s_weights_path 和 vits_weights_path 的路径修改为，注意不能弄反了，如下图所示

在软件的下载页面我们会提供GPT-SoVITS整合包的下载地址，在下载完整合包后，解压到D盘，然后打开整合包目录，将 baowenbei.yaml 配置文件复制到 D:/GPT/GPT_SoVITS/configs（整合包路径）中

2).复制参考语音到指定的目录，这里已D:/douyin/modalv2/cankaov2为例

新建一个baowenbei的目录，将baowenbei.wav复制到该目录下

3).最后打开 baowenbei.bat批处理，修改IP地址和端口及其它参数，具体如下:

title jiaoshuinv333 9698
解释：软件启动标题，可以根据自己需要修改)

runtimepython.exe api_v2.py -a 192.168.2.200 -p 9698 -c GPT_SoVITS/configs/jiaoshuinv3339698.yaml

runtimepython.exe api_v2.py
解释：默认就不要修改

192.168.2.200
解释：请修改为自己的IP地址或者 127.0.0.1

9698
解释：代表端口号

jiaoshuinv3339698.yaml
解释：配置文件名称

修改好后，最后将后缀名为bat的文件复制到 GPT_SoVITS的根目录，最后双击批处理启动，至此, GPT_SoVITS 接口的API的配置就完成了。

最后一步：

向peiyin.txt写出相关信息，方便下次直接调用！详见演示视频，比较简单，这里不再重复讲述。

考虑用户多为非计算机专业，所以该帮助文档多以普通用户的语言描述，如有不到之处，还敬请见谅！欢迎批评指正，我们将会做得更好！！

最后祝大家使用vdun软件拿到自己想要的结果。