Skip to content

Latest commit

 

History

History
37 lines (24 loc) · 1.82 KB

README.md

File metadata and controls

37 lines (24 loc) · 1.82 KB

Использование

# Создание виртуального окружения и установка зависимостей
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
# Запуск предсказания
python main.py --src train/dataset/hr_bot_noise --dst train/dataset

Нужно подождать, когда подгрузится модель от huggingface. Это требуется только в первый раз, модель сохранится в кеше ~/.cache/huggingface. Можно скачать её отдельно.

Самопроверка

Результат самопроверки можно найти в ноутбуке train/predict.ipynb. Предсказание датасета luga с вычисление метрик F1 и WER. (0.81 и 0.13 соответственно).

Остальные репозитории

Клиент Веб сервер

Обучение

Подготовка: нужно скачать датасет отсюда. Вытащить директорию DATASET. Переименовать в dataset и поместить в директорию train/dataset.

Происходит в два этапа

Генерация датасета с текстом вычисленным Speech2Text моделью. train/gen_transcriptions.ipynb.

Обучение классификатора на этих данных. train/text2label.ipynb, train/text2attr.ipynb.

Обученные модели сохраняются в train/trained.

Проверка на luga в файле predict.ipynb.