Skip to content

tidalinn/mai_term02_magai_lab3_gennn-nlp_lab

Repository files navigation

Open in Visual Studio Code

Генеративные текстовые нейросети

Задание

Необходимо натренировать и сравнить качество нескольких генеративных текстовых моделей на одном из заданных текстовых датасетов.

Необходимо исследовать следующие нейросетевые архитектуры:

  1. Simple RNN с посимвольной и по-словной токенизацией
  2. Однонаправленная однослойная и многослойная LSTM c посимвольной токенизацией и токенизацией по словам и на основе BPE
  3. Двунаправленная LSTM
  4. (На хорошую оценку) трансформерная архитектура (GPT) "с нуля" [пример]
  5. (На отличную оценку) до-обучение предобученной GPT-сети [пример 1]

Датасеты

Рекомендуется использовать один из следующих датасетов, распределив их таким образом, чтобы все команды в группе использовали разные датасеты:

  1. Английская литература с сайта Project Gutenberg
  2. Русская литература с сайта lib.ru
  3. Архивы выборочных конференций сети FIDONet (можно найти на archive.org или по magnet-ссылке)
  4. Текст книги Гарри Поттер и методы рационального мышления
  5. Англоязычные книги с Wikibooks (датасет)
  6. Русскоязычные книги с Wikibooks (датасет)
  7. Статьи с medium (датасет)
  8. Субтитры фильмов (датасет)

Отчет

Отчет приведите в файле REPORT.md. Также приложите к репозиторию набор Jupyter-ноутбуков, демонстрирующих процесс обучения моделей и результаты текстовой генерации.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published