2022-BigData

Рабочий репозиторий курсов "Большие данные" и "Интеллектуальный анализ данных"

Библиотеки для работы по Интеллектуальному анализу:

Презентация по курсу БД (обновляемая): https://docs.google.com/presentation/d/1xZ51nq1IWvccSrLzHo_QyaDQPvMBiWeUhoyPND-ARzo/edit?usp=sharing

Презентация по интеллектуальному анализу: https://docs.google.com/presentation/d/1rMirhHDHlBHSE8TmHPv4mUuaSaGsJ82O2CVv8BqwssI/edit?usp=sharing

Для работы необходим python 3.9 и выше. Библиотеки: numpy, pandas, matplotlib, tensorflow, sklearn Редактор любой. Из неплохих: IDLE (родной, идёт вместе с установщиком), Visual Studio Code, notepad++, PyCharm, vim (для любителей сначала страдать, потом наслаждаться)

Работа с блокнотами онлайн, с возможностью подключения удалённых мощностей гугла (GPU, TPU): https://colab.research.google.com/

Таблица, где я буду отмечать сданные работы: https://docs.google.com/spreadsheets/d/1uwrUXtU0zR_B6aV6mVqvk2tPqOVT76PW5CwtZ9rLoIk/edit?usp=sharing

Сервер в Дискорд, где буду дублировать: https://discord.gg/MzPkCYf4Dh Мой контакт: [email protected]

В своей папке можете делать все что угодно, в чужие не залезать, в корневую тоже. Я буду ориентироваться на файлы, где в названии будет номер лабораторной.

Интеллектуальный анализ

[5] Построение модели по данным психических заболеваний

сделать признаковое описание объекта: Age привести к нужным границам (не попадающие писать NaN); Gender оцифровать до 3; leave, no_employees, work_interfere привести к значениям по количеству уникальных;
остальные бинарные признаки из текстовых сделать цифровыми, поля "not sure" пока заменить на NaN

провести статистический анализ данных (по всем полям вывести долю каждого варианта, дисперсию, среднее для возраста и т.д.)
выделить поля, по которым доля (по полю threatment) была выше мат.ожидания по всей выборке, это потенциальные ключевые признаки наличия заболевания
построить графики для этих полей
используя теорему Байеса, проверить гипотезу, что помощь с высокой вероятностью будет нужна при наличии факторов, описанных в тех трех (минимум) полях, что вы выделили как ключевые в п.2 (да, формула получится страшноватой, но по сути она простая)

[6] Обучение на основе изображений постеров фильмов

загрузить обучающую и тренировочную выборки (соотношение 0.8 - 0.2);
метки на плакаты брать из столбца "genres_list" (можно для проверки брать не жанры, а год выпуска);
задать топологию сети;
...

# Задачи по сетям:

Выкладывать в свою же папку, но в отдельной подпапке

[2] С использованием модуля socket создать чат:

сервер на локальной машине, который ожидает запроса на соединение, создает отдельный поток, в котором все полученное по этому соединению пересылает по всему списку активных клиентов. Первое сообщение от клиента сохраняется как его псевдоним.
клиент, который по указанному IP стучится к серверу, после чего может вводимую в отдельном потоке строку отправить. А все полученные строки во втором потоке (ожидающего данных от сервера) просто печатает.

Для референса: https://www.binarytides.com/code-chat-application-server-client-sockets-python/ , https://habr.com/ru/post/151623/

Рекомендую не копировать код, а писать самостоятельно.

[3] Для игры из папки __ написать сетевой код:

для игры вдвоем (один - "сервер", второй - "клиент"),
каждый отправляет сопернику результат своего выбора,
результат подсчитывается только после и получения выбора оппонента и после собственного,
добавить справа небольшое окно чата,
игровые сообщения и сообщения чата не должны мешать друг другу.

---------------------------------------

# [1] Симуляция HDFS

Дописать имплементации методов:

разбиение пространства хостов на блоки;
проверка количества репликаций и дозаписывание недостающих копий;
обработку запроса "complete" от клиенгта;
список блоков на каждой DataNode;
методы DataNode для записи блоков: обновления статуса в списке, ответ на запрос "какие блоки хранишь" от NameNode (его тоже написать).

[2] Простые случаи Map-Reduce

Для нескольких файлов с оценками какао посчитать количество суммарных упоминаний каждой из стран.

[3] Сбор данных с сайта

Для https://royallib.com/ собрать информацию (название и год издания) о книгах жанра и сохранить в csv, в каждой строке Название, год:

Любовные романы
Религия и духовность
Справочная литература
Детское
Наука, Образование

Свой вариант определяется как:

len('Фамилия Имя Отчество') * (номер дня рождения, считая 27 ноября 1997 днем номер 0) % 5 + 1

[4] Анализ текстовых данных

Для данных, полученных из предыдущего задания:

посчитать частоту слов с помощью map-reduce цепочек
визуализировать результат диаграммой
обосновать и выделить значимые статистические параметры

Name		Name	Last commit message	Last commit date
Latest commit History 464 Commits
Artem Kuznetcov		Artem Kuznetcov
Golyshkin Pavel		Golyshkin Pavel
Polyakov_Maxim		Polyakov_Maxim
Samedov_Nikolay		Samedov_Nikolay
__		__
_lab-1		_lab-1
_lab-2		_lab-2
_lab-3		_lab-3
_lab-4		_lab-4
_lab-5		_lab-5
_lab-6		_lab-6
host1		host1
host2		host2
host3		host3
Алексеева Валерия		Алексеева Валерия
Бобина Дарья		Бобина Дарья
Боковая Полина Максимовна		Боковая Полина Максимовна
Булатова Наталья Владимировна		Булатова Наталья Владимировна
Быляв Илья		Быляв Илья
Варламов Даниил		Варламов Даниил
Гордеев Никита Сергеевич		Гордеев Никита Сергеевич
Залетов		Залетов
Камышев Данил Дмитриевич		Камышев Данил Дмитриевич
Красильников Никита Дмитриевич		Красильников Никита Дмитриевич
Крупин Владимир Николаевич		Крупин Владимир Николаевич
Куликов Артем Александрович		Куликов Артем Александрович
Куратев Никита Игоревич		Куратев Никита Игоревич
Лицов Роман		Лицов Роман
Лоскутов Андрей Викторович		Лоскутов Андрей Викторович
Малов Даниил Константинович		Малов Даниил Константинович
Оборожный Данил Сергеевич		Оборожный Данил Сергеевич
Подгурский Артём Игоревич		Подгурский Артём Игоревич
Руденко Сергей		Руденко Сергей
Смирнов Артем Олегович		Смирнов Артем Олегович
Смирнова Анна Николаевна		Смирнова Анна Николаевна
Уманский Андрей		Уманский Андрей
Хазова Александра Сергеевна		Хазова Александра Сергеевна
Эпова Екатерина Александровна		Эпова Екатерина Александровна
Юданов Вячеслав		Юданов Вячеслав
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2022-BigData

Интеллектуальный анализ

[5] Построение модели по данным психических заболеваний

[6] Обучение на основе изображений постеров фильмов

[2] С использованием модуля socket создать чат:

[3] Для игры из папки __ написать сетевой код:

[2] Простые случаи Map-Reduce

[3] Сбор данных с сайта

[4] Анализ текстовых данных

About

Releases

Packages

Contributors 30

Languages

kit8nino/2022-BigData

Folders and files

Latest commit

History

Repository files navigation

2022-BigData

Интеллектуальный анализ

[5] Построение модели по данным психических заболеваний

[6] Обучение на основе изображений постеров фильмов

[2] С использованием модуля socket создать чат:

[3] Для игры из папки __ написать сетевой код:

[2] Простые случаи Map-Reduce

[3] Сбор данных с сайта

[4] Анализ текстовых данных

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 30

Languages

Packages