diff --git a/README.md b/README.md index 3dd27f2..38c3f88 100644 --- a/README.md +++ b/README.md @@ -9,7 +9,12 @@ ## Структура проекта LLM_train - ноутбуки для перевода англоязычного датасета и дальнейшего обучения на нём языковой модели-декодера. -datasets - всё, что использовалалось для подготовки данных для модели +datasets - всё, что использовалалось для подготовки данных для модели: + 1. clipscore_quality_test - ручной тест качества метрики clipscore и переводчика. + 2. coco_translation - перевод caption'ов COCO-2014. + 3. flan_translation - перевод CoT части FLAN'a с английского на русский. + 4. load_data - загрузка изображений из url'ов датасета Wiki и скачивание COCO-2014 + 5. wikitext_normalization - нормализация и предобработка caption'ов Wiki датасета и подсчет CLIP score его и COCO. experiments - все предыдущие эксперименты с моделью и её производными