SoftVC VITS Singing Voice Conversion

Forked form innnky/so-vits-svc 4.0版本

https://github.com/innnky/so-vits-svc

colab脚本

https://colab.research.google.com/drive/1hGt9XowC07NGmXxKNJvY5N64uMdd435M?usp=sharing

必要模型文件及预训练模型

https://huggingface.co/Plutoisy/pt_file/tree/main

SoftVC VITS Singing Voice Conversion

模型简介

歌声音色转换模型，通过SoftVC内容编码器提取源音频语音特征，与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时，更换声码器为 NSF HiFiGAN 解决断音问题

4.0版本更新内容

特征输入更换为 Content Vec
采样率统一使用44100hz
由于更改了hop size等参数以及精简了部分模型结构，推理所需显存占用大幅降低，4.0版本44khz显存占用甚至小于3.0版本的32khz
调整了部分代码结构
数据集制作、训练过程和3.0保持一致，但模型完全不通用，数据集也需要全部重新预处理
增加了可选项 1：vc模式自动预测音高f0,即转换语音时不需要手动输入变调key，男女声的调能自动转换，但仅限语音转换，该模式转换歌声会跑调
增加了可选项 2：通过kmeans聚类方案减小音色泄漏，即使得音色更加像目标音色

在线demo：

预先下载的模型文件

contentvec ：checkpoint_best_legacy_500.pt
- 放在hubert目录下
预训练底模文件： G_0.pth 与 D_0.pth
- 放在logs/44k目录下
- 预训练底模训练数据集包含云灏即霜辉宇·星AI 派蒙绫地宁宁，覆盖男女生常见音域，可以认为是相对通用的底模

# 一键下载
# contentvec
# 由于作者提供的网盘没有直链，所以需要手动下载放在hubert目录
# G与D预训练模型:
wget -P logs/44k/ https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/G_0.pth
wget -P logs/44k/ https://huggingface.co/innnky/sovits_pretrained/resolve/main/sovits4/D_0.pth

colab一键数据集制作、训练脚本

数据集准备

仅需要以以下文件结构将数据集放入dataset_raw目录即可

dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
    ├───xx2-0xxx2.wav
    ├───...
    └───xxx7-xxx007.wav

数据预处理

重采样至 44100hz

python resample.py

自动划分训练集验证集测试集以及自动生成配置文件

python preprocess_flist_config.py

生成hubert与f0

python preprocess_hubert_f0.py

执行完以上步骤后 dataset 目录便是预处理完成的数据，可以删除dataset_raw文件夹了

训练

python train.py -c configs/config.json -m 44k

注：训练时会自动清除老的模型，只保留最新3个模型，如果想防止过拟合需要自己手动备份模型记录点,或修改配置文件keep_ckpts 0为永不清除

推理

使用 inference_main.py

截止此处，4.0使用方法（训练、推理）和3.0完全一致，没有任何变化（推理增加了命令行支持）

# 例
python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -n "君の知らない物語-src.wav" -t 0 -s "nen"

必填项部分

-m, --model_path：模型路径。
-c, --config_path：配置文件路径。
-n, --clean_names：wav 文件名列表，放在 raw 文件夹下。
-t, --trans：音高调整，支持正负（半音）。
-s, --spk_list：合成目标说话人名称。

可选项部分：见下一节

-a, --auto_predict_f0：语音转换自动预测音高，转换歌声时不要打开这个会严重跑调。
-cm, --cluster_model_path：聚类模型路径，如果没有训练聚类则随便填。
-cr, --cluster_infer_ratio：聚类方案占比，范围 0-1，若没有训练聚类模型则填 0 即可。

可选项

如果前面的效果已经满意，或者没看明白下面在讲啥，那后面的内容都可以忽略，不影响模型使用。(这些可选项影响比较小，可能在某些特定数据上有点效果，但大部分情况似乎都感知不太明显)，

自动f0预测

4.0模型训练过程会训练一个f0预测器，对于语音转换可以开启自动音高预测，如果效果不好也可以使用手动的，但转换歌声时请不要启用此功能！！！会严重跑调！！

在inference_main中设置auto_predict_f0为true即可

聚类音色泄漏控制

介绍：聚类方案可以减小音色泄漏，使得模型训练出来更像目标的音色（但其实不是特别明显），但是单纯的聚类方案会降低模型的咬字（会口齿不清）（这个很明显），本模型采用了融合的方式，可以线性控制聚类方案与非聚类方案的占比，也就是可以手动在"像目标音色" 和 "咬字清晰" 之间调整比例，找到合适的折中点。

使用聚类前面的已有步骤不用进行任何的变动，只需要额外训练一个聚类模型，虽然效果比较有限，但训练成本也比较低

训练过程：
- 使用cpu性能较好的机器训练，据我的经验在腾讯云6核cpu训练每个speaker需要约4分钟即可完成训练
- 执行python cluster/train_cluster.py ，模型的输出会在 logs/44k/kmeans_10000.pt
推理过程：
- inference_main中指定cluster_model_path
- inference_main中指定cluster_infer_ratio，0为完全不使用聚类，1为只使用聚类，通常设置0.5即可

Onnx导出

使用 onnx_export.py

新建文件夹：checkpoints 并打开
在checkpoints文件夹中新建一个文件夹作为项目文件夹，文件夹名为你的项目名称，比如aziplayer
将你的模型更名为model.pth，配置文件更名为config.json，并放置到刚才创建的aziplayer文件夹下
将 onnx_export.py 中path = "NyaruTaffy" 的 "NyaruTaffy" 修改为你的项目名称，path = "aziplayer"
运行 onnx_export.py
等待执行完毕，在你的项目文件夹下会生成一个model.onnx，即为导出的模型
Onnx模型支持的UI
- MoeSS
我去除了所有的训练用函数和一切复杂的转置，一行都没有保留，因为我认为只有去除了这些东西，才知道你用的是Onnx

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
cluster		cluster
configs		configs
filelists		filelists
hubert		hubert
inference		inference
logs/44k		logs/44k
modules		modules
onnx		onnx
onnxexport		onnxexport
vdecoder		vdecoder
.gitignore		.gitignore
Eng_docs.md		Eng_docs.md
LICENSE		LICENSE
README.md		README.md
app.py		app.py
data_utils.py		data_utils.py
flask_api.py		flask_api.py
inference.txt		inference.txt
inference_main.py		inference_main.py
models.py		models.py
onnx_export.py		onnx_export.py
preprocess_flist_config.py		preprocess_flist_config.py
preprocess_hubert_f0.py		preprocess_hubert_f0.py
requirements.txt		requirements.txt
resample.py		resample.py
spec_gen.py		spec_gen.py
train.py		train.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Forked form innnky/so-vits-svc 4.0版本

colab脚本

必要模型文件及预训练模型

SoftVC VITS Singing Voice Conversion

模型简介

4.0版本更新内容

预先下载的模型文件

colab一键数据集制作、训练脚本

数据集准备

数据预处理

训练

推理

可选项

自动f0预测

聚类音色泄漏控制

Onnx导出

Onnx模型支持的UI

About

Releases

Packages

Languages

License

Plutoisy/so-vits-svc

Folders and files

Latest commit

History

Repository files navigation

Forked form innnky/so-vits-svc 4.0版本

colab脚本

必要模型文件及预训练模型

SoftVC VITS Singing Voice Conversion

模型简介

4.0版本更新内容

预先下载的模型文件

colab一键数据集制作、训练脚本

数据集准备

数据预处理

训练

推理

可选项

自动f0预测

聚类音色泄漏控制

Onnx导出

Onnx模型支持的UI

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages