Видеозаписи лекций без обратной связи и участия преподавателя. Вы получите доступ к материалам сразу после оплаты.
Кому подойдет:
Начинающим Data Scientist-ам — Систематизируете и углубите знания и пополните резюме практическими проектами
Аналитикам — Сможете не ограничиваться базовой аналитикой и внедрять модели Machine Learning, прогнозирующие различные показатели
Разработчикам — Перейдете в сферу Data Science, повысите уровень дохода и будете решать интересные задачи
Математикам — Примените знания к новым задачам и освоите востребованную профессию
Программа:
Теория вероятностей и математическая статистика
— Случайные события. Условная вероятность. Формула Байеса. Независимые испытания
— Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона
— Описательная статистика. Качественные и количественные характеристики популяции. Графическое представление данных
— Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема
— Проверка статистических гипотез. P-значения. Доверительные интервалы. A/B-тестирование
— Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ
— Многомерный статистический анализ. Линейная регрессия
— Дисперсионный анализ. Логистическая регрессия
Проект
Разведочный анализ данных (EDA) на основе выбранного датасета: визуализация, корреляционный, дисперсионный и факторный анализ
Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
— Введение в курс. Вебинар
— Вычисления с помощью Numpy. Работа с данными в Pandas. Видеоурок
— Вычисления с помощью Numpy. Работа с данными в Pandas. Вебинар
— Визуализация данных в Matplotlib. Видеоурок
— Визуализация данных в Matplotlib. Вебинар
— Обучение с учителем в Scikit-learn. Видеоурок
— Обучение с учителем в Scikit-learn. Вебинар
— Обучение без учителя в Scikit-learn. Видеоурок
— Обучение без учителя в Scikit-learn и введение в итоговый проект. Вебинар
— Консультация по итоговому проекту. Вебинар
Проект
Соревнование на платформе Kaggle по предсказанию цены на недвижимость, решение задачи регрессии
Библиотеки Python для Data Science: продолжение
— Введение в задачу классификации. Постановка задачи и подготовка данных
— Анализ данных и проверка статистических гипотез
— Построение модели классификации
— Оценка и интерпретация полученной модели. Обсуждение курсового проекта
Проект
Соревнование на платформе Kaggle по кредитному скорингу, решение задачи классификации
Следующие 2 раздела будут добавляться позже, по мере добавления их авторами.
Алгоритмы анализа данных
— Алгоритм линейной регрессии. Градиентный спуск
— Масштабирование признаков. L1- и L2-регуляризация. Стохастический градиентный спуск
— Логистическая регрессия. Log Loss
— Алгоритм построения дерева решений
— Случайный лес
— Градиентный бустинг (AdaBoost)
— Классификация с помощью KNN. Кластеризация K-means
— Снижение размерности данных
Проект
Участие в одном или двух соревнованиях на Kaggle: предсказать средний балл на экзамене по математике, который получают ученики репетиторов (задача регрессии); предсказать, подойдет ли репетитор для подготовки к экзамену по математике (задача классификации)
Системы машинного обучения в Production
— Введение в задачу предсказания оттока. Формализация задачи и сбор сырых данных
— Загрузка данных и построение обучающей выборки. Анализ и предобработка датасета. Балансировка классов
— Выбор и обучение модели на отобранных признаках. Сравнение качества и оценка модели
— Оценка потенциального влияния на бизнес. Масштабирование решения
— Подготовка к продакшену. Планировщик задач и перенос проекта из Jupyter в PyCharm
Отзывы
Отзывов пока нет.