Vdun语音采用api调用开源程序及优缺点分析（一定要看）

编辑: admin 分类: Vdun语音发布时间: 2025-02-21 来源:互联网

vdun语音支持目前市面开源的TTS（文字转语音）相关的AI软件，并公开的形式告知用户相关的调用方式，以诚信的态度，并简单易懂的方式告用户相关训练技术。

目前vdun语音采用本地API的方式调用GPT-SoVITS和bert-vist2开源软件，两款开源软件不作为销售体，还请知悉，使用方法和训练方法需要用户自行掌握，或以其它公开的方式公知用户。

在vdun语音的主程序的顶端

G-models代表GPT-SoVITS的相关调用 B-models代表bert-vist2的相关调用

目前主采取GPT-SoVITS高度还原音的特性，我们主推大家使用 GPT-SoVITS 作为API调用的程序.

bert-vist2因训练复杂，API调用显存占用高，推理后机器音太重等原因，在此不推荐大家使用,后期会推出相关的教程，这里我们的技术文章主要以介绍GPT-SoVITS 为主.

GPT-SoVITS和bert-vist2 相关优缺点，一定要了解（个人的表达观点，不代表大众的观点，请注意）

一、模型训练时长

GPT-SoVITS 训练时间较短，相同采样原件时长（如5-30分钟的音频），不同的硬件配置，GPT-SoVITS 的训练时间在20-120分钟内在较短的时间即可以完成

bert-vist2 训练时间较长，通长一般20小以上

二、音色及情感表现方式

GPT-SoVITS 训练出来的模型推理后情感更接近原声，语气和情感表现方式更接近于原声

bert-vist2 训练出来的模型推理后机器音太重，听着的感觉不像人在说话，更像机器人在说话。但不排除少部分表现优秀的炼丹高手练出来的高手。

三、推理漏字方面

GPT-SoVITS 推理后的语音会出现少部分的漏字及重复读字的现像，目前官方没有解决，但都在合理的可以接受范围内

bert-vist2 不存在推理后的语音会出现少部分的漏字及重复读字的现像，这方面bert-vist2表现优于GPT-SoVITS

四、显存占用

GPT-SoVITS 推理时显存表现优秀，占用仅为2-3G，不影响直播

bert-vist2 目前的API包启动时 bert-vist2 的显存占用6-7G左右，如果你的显存在8G左右，我们不推荐bert-vist2 作为推理程序。

以上GPT-SoVITS和bert-vist2 相关优缺点的观点仅代表vdun数字人作者的个人观点，如果不对，还请批评指正，我们虚心接受每一位的批评指正。

考虑用户多为非计算机专业，所以该帮助文档多以普通用户的语言描述，如有不到之处，还敬请见谅！欢迎批评指正，我们将会做得更好！！

最后祝大家使用vdun软件拿到自己想要的结果。