English Documentation Please Click here

VITS 快速微调

这个代码库会指导你如何将自定义角色（甚至你自己），加入预训练的VITS模型中，在1小时内的微调使模型具备如下功能：

在模型所包含的任意两个角色之间进行声线转换
以你加入的角色声线进行中日英三语文本到语音合成。

本项目使用的底模涵盖常见二次元男/女配音声线（来自原神数据集）以及现实世界常见男/女声线（来自VCTK数据集），支持中日英三语，保证能够在微调时快速适应新的声线。

欢迎体验微调所使用的底模！

中日英：作者：我

中日：作者：SayaSS

纯中文：（没有huggingface demo）作者：Wwwwhy230825

目前支持的任务:

从 10条以上的短音频克隆角色声音
从 3分钟以上的长音频（单个音频只能包含单说话人）克隆角色声音
从 3分钟以上的视频（单个视频只能包含单说话人）克隆角色声音
通过输入 bilibili视频链接（单个视频只能包含单说话人）克隆角色声音

目前支持声线转换和中日英三语TTS的角色

任意角色（只要你有角色的声音样本）（注意：声线转换只能在任意两个存在于模型中的说话人之间进行）

微调

若希望于本地机器进行训练，请参考LOCAL.md以进行。
另外，也可以选择使用 Google Colab 进行微调任务。

我需要花多长时间？

安装依赖 (10 min在Google Colab中)
选择预训练模型，详细区别参见Colab 笔记本页面。
上传你希望加入的其它角色声音，详细上传方式见DATA.MD
进行微调，根据选择的微调方式和样本数量不同，花费时长可能在20分钟到2小时不等。

微调结束后可以直接下载微调好的模型，日后在本地运行（不需要GPU）

本地运行和推理

记得下载微调好的模型和config文件！
下载最新的Release包（在Github页面的右侧）
把下载的模型和config文件放在 inference文件夹下, 其文件名分别为 G_latest.pth 和 finetune_speaker.json。
一切准备就绪后，文件结构应该如下所示:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth

运行 inference.exe, 浏览器会自动弹出窗口, 注意其所在路径不能有中文字符或者空格.
请注意，声线转换功能需要安装ffmpeg才能正常使用.

在MoeGoe使用

MoeGoe以及类似其它VITS推理UI使用的config格式略有不同，需要下载的文件为模型G_latest.pth和配置文件moegoe_config.json
按照MoeGoe页面的提示配置路径即可使用。
MoeGoe在输入句子时需要使用相应的语言标记包裹句子才能正常合成。（日语用[JA], 中文用[ZH], 英文用[EN]），例如：
[JA]こんにちわ。[JA]
[ZH]你好！[ZH]
[EN]Hello![EN]

帮助

如果你在使用过程中遇到了任何问题，可以在这里开一个issue，或者加入Discord服务器寻求帮助：Discord。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_ZH.md

README_ZH.md

VITS 快速微调

目前支持的任务:

目前支持声线转换和中日英三语TTS的角色

微调

我需要花多长时间？

本地运行和推理

在MoeGoe使用

帮助

Files

README_ZH.md

Latest commit

History

README_ZH.md

File metadata and controls

VITS 快速微调

目前支持的任务:

目前支持声线转换和中日英三语TTS的角色

微调

我需要花多长时间？

本地运行和推理

在MoeGoe使用

帮助