Vdun语音采用api调用开源程序及优缺点分析(一定要看)

编辑: admin 分类: Vdun语音 发布时间: 2025-02-21 来源:互联网
vdun语音支持目前市面开源的TTS(文字转语音)相关的AI软件,并公开的形式告知用户相关的调用方式,以诚信的态度,并简单易懂的方式告用户相关训练技术。

目前vdun语音采用本地API的方式调用GPT-SoVITSbert-vist2开源软件,两款开源软件不作为销售体,还请知悉,使用方法和训练方法需要用户自行掌握,或以其它公开的方式公知用户。

在vdun语音的主程序的顶端

G-models代表GPT-SoVITS的相关调用   B-models代表bert-vist2的相关调用



目前主采取GPT-SoVITS高度还原音的特性,我们主推大家使用 GPT-SoVITS 作为API调用的程序.

bert-vist2因训练复杂,API调用显存占用高推理后机器音太重等原因,在此不推荐大家使用,后期会推出相关的教程,这里我们的技术文章主要以介绍GPT-SoVITS 为主.



GPT-SoVITS和bert-vist2 相关优缺点,一定要了解(个人的表达观点,不代表大众的观点,请注意)

一、模型训练时长


GPT-SoVITS 训练时间较短,相同采样原件时长(如5-30分钟的音频),不同的硬件配置,GPT-SoVITS 的训练时间在20-120分钟内在较短的时间即可以完成

bert-vist2  训练时间较长,通长一般20小以上


二、音色及情感表现方式

GPT-SoVITS 训练出来的模型推理后情感更接近原声,语气和情感表现方式更接近于原声

bert-vist2  训练出来的模型推理后机器音太重,听着的感觉不像人在说话,更像机器人在说话。但不排除少部分表现优秀的炼丹高手练出来的高手。


三、推理漏字方面

GPT-SoVITS 推理后的语音会出现少部分的漏字及重复读字的现像,目前官方没有解决,但都在合理的可以接受范围内

bert-vist2  不存在推理后的语音会出现少部分的漏字及重复读字的现像,这方面bert-vist2表现优于GPT-SoVITS 


四、显存占用

GPT-SoVITS 推理时显存表现优秀,占用仅为2-3G,不影响直播

bert-vist2   目前的API包启动时 bert-vist2  的显存占用6-7G左右,如果你的显存在8G左右,我们不推荐bert-vist2  作为 推理程序。


以上GPT-SoVITS和bert-vist2 相关优缺点的观点仅代表vdun数字人作者的个人观点,如果不对,还请批评指正,我们虚心接受每一位的批评指正。


考虑用户多为非计算机专业,所以该帮助文档多以普通用户的语言描述,如有不到之处,还敬请见谅!欢迎批评指正,我们将会做得更好!!

最后祝大家使用vdun软件拿到自己想要的结果。