Описание решения

В main.py представлен код для обучения модели, в inference.py для получения предсказания, в main.ipynb предварительный анализ данных и запуск пердсказания.

Файл data/submision.csv содержит ответ на задание. Дополнительные столбцы 'prob_mean', 'prob_mean_per_pos', 'prob_max' содержат соотвественно информацию о:

средней вероятности позитивного класса
средней вероятности среди значений, выше трешхолда 0.5
максимальной вероятности

(Подробнее написано в методе)

Метод

В качестве модели была выбрана rubert-base. Из-за проблем с переобучением была также попробована маленькая модель и классические методы машинного обучения. Первая все еще оказалась склонна к переобучению, а вторые показывали не такое хорошее качество.

Так как датасет несблансирован, то функция потерь (кроссэнтропия) взвешивается пропорционально классам.

Так как в тестовом наборе данных тексты имеют значительно большую длину, то для предсказания текст новости разбивается на предложения (тут есть сложности из-за наличия сокращений внутри предложений), которые и поступают на вход модели. Таким образом для одной новости мы получаем несколько пердсказаний. Так как очевидно, что интересующая нас информация может быть соредоточена только в одном предложении, то усреденение всех вероятностей (prob_mean) является не очень информативной оценкой. Эту проблему можно решить взятием среднего среди значений выше трешхолда 0.5 (prob_mean_per_pos), однако для тогда все предложения негативного класса становятся неотличимы. Частично эту проблему решает взятие максимума (prob_max) среди предсказанных вероятностей, однако такая оценка является слишком точечной.

Как показал анализ результирующего файла data/submision.csv, сортировка именно по prob_max является наиболее информативной, однако для полноты картины рекомендуется учитывать во внимание все три столбца.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
src		src
README.md		README.md
inference.py		inference.py
main.ipynb		main.ipynb
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Описание решения

Метод

About

Releases

Packages

Languages

Stasiche/Sber_NLP_news

Folders and files

Latest commit

History

Repository files navigation

Описание решения

Метод

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages