Лекция первая про питон (1 - 1.5 часа, лучше час)
- почему питон (пару минут)
- ноутбуки (минут 5)
- нумпай (10 мин)
- спарс матрицы из сайпай (10 мин)
- пандас (10 мин)
- матплотлиб (5 мин, что это и зачем, функция plot, hist и бар)
- сиборн (10 мин, распределения и парные графики)
Цель твоего доклада не научить их пользоваться питоном, а рассказать о возможностях. За вечер до следующего дня кто не знал про питон могут почитать что то, этого вполне достаточно по времени.
Слушателям выдается ноутбук с задачами, который можно решить за один час. Задач в принципе можно больше чем на час, пусть дома доделывают. Примеры задач по нумпаю тут http://www.labri.fr/perso/nrougier/teaching/numpy.100/.
По спарс матрицам можно попросить посчитать время перемножения и требуемой памяти для разных типов спарс матриц на спарс данных и тоже самое для нумпая, чтобы ощутить разницу.
По пандас можно простую задачу из курса дернуть: https://habrahabr.ru/company/ods/blog/322626/
По визуализации тоже https://habrahabr.ru/company/ods/blog/323210/
Жертвовать в угоду времени можно пандасом и сиборном, но не спарс матрицами и нумпаем.
Интерактивный урок, в питон ноутбуке который они смогут потом забрать. Сначала рассказывается что такое кегл. Затем рассказывается про конкурс https://www.kaggle.com/c/quora-question-pairs:
- Скачиваются данные и считываются
- Демонстрируются примеры семплов данных
- Рассказывается про то формат в котором заливаются данные на кегл в этот конкурс
- Рассказывается про метрику качества
- Строятся картинки распределения целевой переменной
- Считается среднее значение
- Делается (прям в ноутбуке) тривиальный сабмит просто со средним значением для всех примеров
- Отправляется на кегл и ты видешь свое место с таким вырожденным сабмитом