Использование

# Создание виртуального окружения и установка зависимостей
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt

# Запуск предсказания
python main.py --src train/dataset/hr_bot_noise --dst train/dataset

Нужно подождать, когда подгрузится модель от huggingface. Это требуется только в первый раз, модель сохранится в кеше ~/.cache/huggingface. Можно скачать её отдельно.

Самопроверка

Результат самопроверки можно найти в ноутбуке train/predict.ipynb. Предсказание датасета luga с вычисление метрик F1 и WER. (0.81 и 0.13 соответственно).

Остальные репозитории

Клиент Веб сервер

Обучение

Подготовка: нужно скачать датасет отсюда. Вытащить директорию DATASET. Переименовать в dataset и поместить в директорию train/dataset.

Происходит в два этапа

Генерация датасета с текстом вычисленным Speech2Text моделью. train/gen_transcriptions.ipynb.

Обучение классификатора на этих данных. train/text2label.ipynb, train/text2attr.ipynb.

Обученные модели сохраняются в train/trained.

Проверка на luga в файле predict.ipynb.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Использование

Самопроверка

Остальные репозитории

Обучение

Files

README.md

Latest commit

History

README.md

File metadata and controls

Использование

Самопроверка

Остальные репозитории

Обучение