Перечисленные проекты были выполнены во время обучения на платформе Яндекс.Практикума. В общей сложности всего было выполнено 15 проектов с учетом дипломного.
№ | Название проекта | Описание | Библиотеки и инструменты |
---|---|---|---|
Общие | |||
1 | Музыкальный стриминговый сервис | На данных музыкального стримингого сервиса необходимо сравнить поведение пользователей двух столиц: Москвы и Санкт-Петербурга. Требуется проверить 3 гипотезы для сравнения поведения. | Python Pandas |
2 | Исследование надежности заёмщиков | На полученных от заказчика-банка данных необходимо определить, влияет ли уровень дохода, цель кредита, семейное положение и количество детей клиента на факт погашения кредита в срок. | Python Pandas |
3 | Исследование объявлений о продаже квартир | На данных сервиса с объявлениями о недвижимости Санкт-Петербурга и прилегающих населенных пунктов за несколько лет необходимо определить рыночную стоимость объектов недвижимости. Задача - установить параметры, что позволит автоматизированную систему: она отследит аномалии и мошенническую деятельность. | Python Pandas Matplotlib |
4 | Определение перспективного тарифа для телеком-компании | Заказчик исследования - федеральный оператор сотовой связи. Задача: какой из тарифных планов, предложенных клиентам, "Смарт" или "Ультра", приносит больше прибыли. Тредуется проанализировать поведение клиентов и на этой основе выяснить какой тариф лучше. | Python Pandas Matplotlib Numpy SciPy |
5 | Закономерности, определяющие успешность игры | Для планирования рекламных компаний и определения потенциально популярного продукта интернет-магазина компьютерных игр необходимо выявить факторы успешности игры. (Сборный проект 1-го модуля) | Python Pandas Matplotlib Numpy SciPy |
Проекты Data Science | |||
6 | Отток клиентов | На предоставленных исторических данных банка-заказчика о поведении клиентов и расторжении договоров с банком необходимо спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. | Pandas Matplotlib Scikit-Learn |
7 | Выбор локации для скважины | Для нефтедобывающей компании-заказчика на представленнх данных о месторождениях нефти в трех регионах с измеренными качеством и объемом запасов необходимо построить модель, помогающую определить регион, в котором бурение новой скважины принесет наибольшую прибыль. | Pandas Scikit-Learn |
8 | Оптимизация золотодобывающего производства | Необходимо подготовить прототип модели обучения для эффективной работы промышленных предприятий на данных с параметрами добычи и очистки золотосодержащей руды. (Сборный проект 2-го модуля) | Pandas Matplotlib Numpy Scikit-Learn |
9 | Защита персональных данных клиентов | Требуется защитить данные клиентов страховой компании: разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию и при преобразовании качество моделей машинного обучения не ухудшилось. | Pandas Numpy Scikit-Learn |
10 | Определение стоимости автомобилей | Заказчик - сервис по продаже б/у автомобилей - разрабатывает приложение для привлечения новых клиентов, в котором можно быстро узнать рыночную стоимость своего автомобиля. Необходимо построить модель для определения стоимости (важны качество и скорость предсказаний, время обучения). | Pandas Numpy Scikit-Learn Catboost lightgbm |
11 | Прогнозирование заказов такси | Заказчик - сервис заказа такси. На исторических данных о заказах такси в аэропортах для привлечения большего количества водителей в пиковый период нагрузки необходимо построить модель для прогнозирования количества заказов такси в следующий час. | Pandas Scikit-Learn Catboost lightgbm |
12 | Обработка комментариев | Заказчик - интернет-магазин - запускает новый сервис с возможность редактирования и дополнения описания товаров пользователями, которые могут предлагать свои правки и комментировать чужие. Магазину нужен инструмент - модель, который будет искать токсичные комментарии и отправлять их на модерацию. | Pandas Scikit-Learn NLTK Matplotlib Seaborn |
13 | Определение возраста покупателей | Заказчику - супермаркету - необходимо внедрить систему компьютерного зрения для обработки фотографий покупателей и сотрудников. Фотофиксация покупателей поможет проанализировать их покупки и скорректировать ассортимент, фотофиксация сотрудников поможет зафиксировать нарушения и добросовестность при продаже алкоголя. Необходимо построить модель, которая по фотографии определит приблизительный возраст человека на набор фотографий людей с указанием возраста. | Pandas Matplotlib Keras |
14 | Телеком—задача | На основании данных сотового оператора (данные о клиентах, информация о тарифах и договорах) заказчику - сотовому оператору - требуется научиться прогнозировать отток клиентов. В случае прогноза ухода клиент будет мотивирован остаться предложенными промокодами и специальными условиями (Дипломный проект). | Pandas Scikit-Learn Catboost lightgbm Seaborn Matplotlib Numpy |
15 | Рекомендация тарифов | После предобработки в проекте 4 на основе данных с тарифами "Смарт" и "Ультра" необходимо построить модель для задачи классификации тарифов. Основная метрика - accuracy. | Python Pandas Matplotlib Scikit-Learn |
Проекты Data Analytics | |||
16 | Анализ бизнес-показателей | Компания, разрабатывающая развлекательное приложение Procrastinate Pro+, несмотря на огромные вложения в рекламу, последние несколько месяцев терпит убытки. Необходимо разобраться в причинах убытков и помочь компании выйти в плюс. | Python Pandas Matplotlib Numpy Seaborn |