GitHub - shampsdev/rzd-ml

Использование

# Создание виртуального окружения и установка зависимостей
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt

# Запуск предсказания
python main.py --src train/dataset/hr_bot_noise --dst train/dataset

Нужно подождать, когда подгрузится модель от huggingface. Это требуется только в первый раз, модель сохранится в кеше ~/.cache/huggingface. Можно скачать её отдельно.

Самопроверка

Результат самопроверки можно найти в ноутбуке train/predict.ipynb. Предсказание датасета luga с вычисление метрик F1 и WER. (0.81 и 0.13 соответственно).

Остальные репозитории

Клиент Веб сервер

Обучение

Подготовка: нужно скачать датасет отсюда. Вытащить директорию DATASET. Переименовать в dataset и поместить в директорию train/dataset.

Происходит в два этапа

Генерация датасета с текстом вычисленным Speech2Text моделью. train/gen_transcriptions.ipynb.

Обучение классификатора на этих данных. train/text2label.ipynb, train/text2attr.ipynb.

Обученные модели сохраняются в train/trained.

Проверка на luga в файле predict.ipynb.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
src		src
train		train
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Использование

Самопроверка

Остальные репозитории

Обучение

About

Releases

Packages

Contributors 3

Languages

shampsdev/rzd-ml

Folders and files

Latest commit

History

Repository files navigation

Использование

Самопроверка

Остальные репозитории

Обучение

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages