Необходимо натренировать и сравнить качество нескольких генеративных текстовых моделей на одном из заданных текстовых датасетов.
Необходимо исследовать следующие нейросетевые архитектуры:
- Simple RNN с посимвольной и по-словной токенизацией
- Однонаправленная однослойная и многослойная LSTM c посимвольной токенизацией и токенизацией по словам и на основе BPE
- Двунаправленная LSTM
- (На хорошую оценку) трансформерная архитектура (GPT) "с нуля" [пример]
- (На отличную оценку) до-обучение предобученной GPT-сети [пример 1]
Рекомендуется использовать один из следующих датасетов, распределив их таким образом, чтобы все команды в группе использовали разные датасеты:
- Английская литература с сайта Project Gutenberg
- Русская литература с сайта lib.ru
- Архивы выборочных конференций сети FIDONet (можно найти на archive.org или по magnet-ссылке)
- Текст книги Гарри Поттер и методы рационального мышления
- Англоязычные книги с Wikibooks (датасет)
- Русскоязычные книги с Wikibooks (датасет)
- Статьи с medium (датасет)
- Субтитры фильмов (датасет)
Отчет приведите в файле REPORT.md. Также приложите к репозиторию набор Jupyter-ноутбуков, демонстрирующих процесс обучения моделей и результаты текстовой генерации.