Язык преподавания в курсе – русский. Вскоре будет доступна украинская версия этого курса.
Видеозаписи лекций без обратной связи и участия преподавателя. Вы получите доступ к материалам сразу после оплаты.
Кому подойдет:
Начинающим Data Scientist-ам – Систематизируете и углубите знания и пополните резюме практическими проектами
Аналитикам – Сможете не ограничиваться базовой аналитикой и внедрять модели Machine Learning, прогнозирующие различные показатели
Разработчикам – Перейдете в сферу Data Science, повысите уровень дохода и будете решать интересные задачи
Математикам – Примените знания к новым задачам и освоите востребованную профессию
Программа:
Теория вероятностей и математическая статистика
– Случайные события. Условная вероятность. Формула Байеса. Независимые испытания
– Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона
– Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных
– Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема
– Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование
– Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ
– Многомерный статистический анализ. Линейная регрессия
– Дисперсионный анализ. Логистическая регрессия
Проект
Разведочный анализ данных (EDA) на основе выбранного датасета: визуализация, корреляционный, дисперсионный и факторный анализ
Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
– Введение в курс. Вебинар
– Вычисления с помощью Numpy. Работа с данными в Pandas. Видеоурок
– Вычисления с помощью Numpy. Работа с данными в Pandas. Вебинар
– Визуализация данных в Matplotlib. Видеоурок
– Визуализация данных в Matplotlib. Вебинар
– Обучение с учителем в Scikit-learn. Видеоурок
– Обучение с учителем в Scikit-learn. Вебинар
– Обучение без учителя в Scikit-learn. Видеоурок
– Обучение без учителя в Scikit-learn и введение в итоговый проект. Вебинар
– Консультация по итоговому проекту. Вебинар
Проект
Соревнование на платформе Kaggle по предсказанию цены на недвижимость, решение задачи регрессии
Библиотеки Python для Data Science: продолжение
– Введение в задачу классификации. Постановка задачи и подготовка данных
– Анализ данных и проверка статистических гипотез
– Построение модели классификации
– Оценка и интерпретация полученной модели. Обсуждение курсового проекта
Проект
Соревнование на платформе Kaggle по кредитному скорингу, решение задачи классификации
Следующие 2 раздела будут добавляться позже, по мере добавления их авторами.
Алгоритмы анализа данных
– Алгоритм линейной регрессии. Градиентный спуск
– Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск
– Логистическая регрессия. Log Loss
– Алгоритм построения дерева решений
– Случайный лес
– Градиентный бустинг (AdaBoost)
– Классификация с помощью KNN. Кластеризация K-means
– Снижение размерности данных
Проект
Участие в одном или двух соревнованиях на Kaggle: предсказать средний балл на экзамене по математике, который получают ученики репетиторов (задача регрессии); предсказать, подойдет ли репетитор для подготовки к экзамену по математике (задача классификации)
Системы машинного обучения в Production
– Введение в задачу предсказания оттока. Формализация задачи и сбор сырых данных
– Загрузка данных и построение обучающей выборки. Анализ и предобработка датасета. Балансировка классов
– Выбор и обучение модели на отобранных признаках. Сравнение качества и оценка модели
– Оценка потенциального влияния на бизнес. Масштабирование решения
– Подготовка к продакшену. Планировщик задач и перенос проекта из Jupyter в PyCharm
Отзывы
Отзывов пока нет.