XTTS-Webui é uma interface web que permite aproveitar ao máximo o XTTS. Existem outras redes neurais em torno desta interface que irão melhorar seus resultados. Você também pode ajustar o modelo e obter um modelo de voz de alta qualidade.
- Fácil trabalho com XTTSv2
- Processamento em lote para dublagem de um grande número de arquivos
- Capacidade de traduzir qualquer áudio com salvamento de voz
- Capacidade de melhorar resultados usando redes neurais e ferramentas de áudio automaticamente
- Capacidade de ajustar o modelo e usá-lo imediatamente
- Capacidade de usar ferramentas como: RVC, OpenVoice, Resemble Enhance, juntas e separadamente
- Capacidade de personalizar a geração de XTTS, todos os parâmetros, múltiplas amostras de fala
- Adicione uma barra de status com informações de progresso e erro
- Integrar o treinamento na interface padrão
- Adicione a capacidade de transmitir para verificar o resultado
- Adicionar uma nova maneira de processar texto para narração
- Adicionar a capacidade de personalizar alto-falantes durante o processamento em lote
- Adicionar API
Use esta IU da web por meio de Google Colab
Certifique-se de ter Python 3.10.x ou Python 3.11, CUDA 11.8 ou CUDA 12.1, Microsoft Builder Tools 2019 com pacote c++ e ffmpeg instalados
Para começar:
- Execute o arquivo 'install.bat'
- Para iniciar a UI da web, execute 'start_xtts_webui.bat'
- Abra seu navegador preferido e vá para o endereço local exibido no console.
Para começar:
- Execute o arquivo 'install.sh'
- Para iniciar a UI da web, execute 'start_xtts_webui.sh'
- Abra seu navegador preferido e vá para o endereço local exibido no console.
Siga estas etapas para instalação:
-
Certifique-se de que
CUDA
esteja instalado -
Clone o repositório:
git clone https://github.com/daswer123/xtts-webui
-
Navegue até o diretório:
cd xtts-webui
-
Crie um ambiente virtual:
python -m venv venv
-
Ative o ambiente virtual:
- No Windows use:
venv\scripts\activate
- No Linux use:
source venv\bin\activate
- No Windows use:
-
Instale PyTorch e torchaudio com o comando pip:
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
-
Instale todas as dependências de requirements.txt:
pip install -r requirements.txt
Para iniciar a interface, siga estas etapas:
Ative seu ambiente virtual:
venv/scripts/activate
ou se você estiver no Linux,
source venv/bin/activate
Em seguida, inicie o webui para xtts executando este comando:
python app.py
Aqui estão alguns argumentos de tempo de execução que podem ser usados ao iniciar o aplicativo:
Argumento | Valor padrão | Descrição |
---|---|---|
-hs, --host | 127.0.0.1 | O host ao qual vincular |
-p, --porta | 8010 | O número da porta para escutar |
-d, --dispositivo | cuda | Qual dispositivo usar (CPU ou Cuda) |
-sf,--speaker_folder | alto-falantes/ | Diretório contendo amostras TTS |
-o,--saída | "saída/" | Diretório de saída |
-ms,--model-source | "local" | Defina a fonte do modelo: 'api' para a versão mais recente do repositório, inferência de API ou 'local' para usar inferência local e modelo v2.0.2 |
-v,-version | "v2.0.2" | Você pode especificar qual versão do xtts usar. Você pode especificar o nome do modelo customizado para esta finalidade, colocar a pasta em modelos e especificar o nome da pasta neste sinalizador |
-l,--language | "auto" | Idioma do Webui, você pode ver as traduções disponíveis na pasta i18n/locale. |
--lowvram | Ativa o modo low vram que alterna o modelo para RAM quando não está processando ativamente | |
--deepspeed | Ativa a aceleração deepspeed. Funciona no Windows em python 3.10 e 3.11 | |
--share | Permite o compartilhamento da interface fora do computador local | |
--rvc | Habilitar pós-processamento RVC, todos os modelos devem estar localizados na pasta rvc |
Módulo para RVC, você pode habilitar o módulo RVC para pós-processar o áudio recebido, para isso você precisa adicionar o sinalizador --rvc se estiver executando no console ou gravá-lo no arquivo de inicialização
Para que o modelo funcione nas configurações RVC você precisa selecionar um modelo que você deve primeiro carregar na pasta voice2voice/rvc, o modelo e o arquivo de índice devem estar juntos, o arquivo de índice é opcional, cada modelo deve estar em um arquivo separado pasta.
Diferenças entre xtts-webui e o webui oficial
- Atualizado o sussurro mais rápido para 0.10.0 com a capacidade de selecionar um modelo v3 maior.
- Pasta de saída alterada para pasta de saída dentro da pasta principal.
- Se já existe um conjunto de dados na pasta de saída e você deseja adicionar novos dados, pode fazê-lo simplesmente adicionando um novo áudio, o que estava lá não será processado novamente e os novos dados serão adicionados automaticamente
- Ligue o filtro VAD
- Após a criação do conjunto de dados, é criado um arquivo que especifica o idioma do conjunto de dados. Este arquivo é lido antes do treino para que o idioma sempre corresponda. É conveniente quando você reinicia a interface
- Adicionada a capacidade de selecionar o modelo básico para XTTS, bem como quando você treinar novamente, não será necessário baixar o modelo novamente.
- Adicionada capacidade de selecionar modelo personalizado como modelo base durante o treinamento, o que permitirá o ajuste fino do modelo já ajustado.
- Adicionada possibilidade de obter a versão otimizada do modelo com 1 clique (etapa 2.5, colocar a versão otimizada na pasta de saída).
- Você pode escolher se deseja excluir as pastas de treinamento depois de otimizar o modelo
- Ao otimizar o modelo, o áudio de referência do exemplo é movido para a pasta de saída
- Verificando a exatidão do idioma especificado e do idioma do conjunto de dados
- Adicionada possibilidade de personalizar as configurações de inferência durante a verificação do modelo.
- Se você reiniciar acidentalmente a interface durante uma das etapas, poderá carregar dados em botões adicionais
- Removida a exibição de logs, pois causava problemas ao reiniciar
- O resultado final é copiado para a pasta finalizada, estes são arquivos totalmente finalizados, você pode movê-los para qualquer lugar e usá-los como modelo padrão
- Adicionado suporte para japonês aqui