Skip to content

Latest commit

 

History

History
29 lines (20 loc) · 2.35 KB

README.md

File metadata and controls

29 lines (20 loc) · 2.35 KB

Image Captioning

Создание модели для image captioning и получения качественных эмбеддингов для решения других задач в zero shot в рамках весеннего проекта, ПАДиИИ ВШЭ СПб, весна 2023
Постер с результатами

Воспроизведение результатов

Для обучения модели достаточно запустить файл train.py, указав нужные параметры в config.json

Структура проекта

LLM_train - ноутбуки для перевода англоязычного датасета и дальнейшего обучения на нём языковой модели-декодера.

datasets - всё, что использовалалось для подготовки данных для модели:

  1. clipscore_quality_test - ручной тест качества метрики clipscore и переводчика.
  2. coco_translation - перевод caption'ов COCO-2014.
  3. flan_translation - перевод CoT части FLAN'a с английского на русский.
  4. load_data - загрузка изображений из url'ов датасета Wiki и скачивание COCO-2014
  5. wikitext_normalization - нормализация и предобработка caption'ов Wiki датасета и подсчет CLIP score его и COCO.

experiments - все предыдущие эксперименты с моделью и её производными

src - актуальная модель

telegram bot - весь код, связанный с телеграм-ботом. Он использует следующий скрипт в качестве основы для работы с моделью: experiments/inference_clip_gpt2_coco

Демо

Вы можете попробовать модель по следующим ссылкам:

  1. Telegram
  2. HF Spaces