Skip to content

Тестовое для смены в сириус 2023

Notifications You must be signed in to change notification settings

solemn-leader/sirius-test

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 

Repository files navigation

sirius-test

Кейс по NLP для смены по машинному обучению от Тинькофф в Университете "Сириус". В рамках задания необходимо обучить свою диалоговую языковую модель и сделать телеграм бота для взаимодействия с ней. Что нужно сделать:

  1. Скачать диалоговые данные из Telegram. Можно взять любой открытый чат
  2. Затюнить открытую модель с хаггинфейса (в качестве базовой модели рекомендуем взять https://huggingface.co/tinkoff-ai/ruDialoGPT-medium)
  3. Для сёрвинга модели напишите телеграм бота
  4. Будет плюсом, если вы обернёте телеграм бота в докер. Дополнительным плюсом будет, если вы также сделаете отдельный сервис для модели и будуте сёрвить её в отдельном докере

В качестве решения задания нужно прислать публичный репозиторий, в котором должен быть код решения задачи и readme с описанием решения. Для обучения модели рекомендуем использовать google colab.

Вспомогательные инструкции

Как получить сырые данные из телеграма

pic

В настройках выгрузки нужно выбрать формат json и убрать галочки со всех медиа файлов. Так как данные могут скачиваться долго, в репозитории лежит пример выгруженных данных.

Как распарсить данные

python prepare_messages.py --tg-history-path 'chata_export.json' --output-path 'data.csv'

About

Тестовое для смены в сириус 2023

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages