Skip to content

shampsdev/rzd-ml

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Использование

# Создание виртуального окружения и установка зависимостей
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
# Запуск предсказания
python main.py --src train/dataset/hr_bot_noise --dst train/dataset

Нужно подождать, когда подгрузится модель от huggingface. Это требуется только в первый раз, модель сохранится в кеше ~/.cache/huggingface. Можно скачать её отдельно.

Самопроверка

Результат самопроверки можно найти в ноутбуке train/predict.ipynb. Предсказание датасета luga с вычисление метрик F1 и WER. (0.81 и 0.13 соответственно).

Остальные репозитории

Клиент Веб сервер

Обучение

Подготовка: нужно скачать датасет отсюда. Вытащить директорию DATASET. Переименовать в dataset и поместить в директорию train/dataset.

Происходит в два этапа

Генерация датасета с текстом вычисленным Speech2Text моделью. train/gen_transcriptions.ipynb.

Обучение классификатора на этих данных. train/text2label.ipynb, train/text2attr.ipynb.

Обученные модели сохраняются в train/trained.

Проверка на luga в файле predict.ipynb.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •