Мова викладання в курсі – російська. Незабаром буде доступна українська версія цього курсу.
Відеозаписи лекцій без зворотного зв’язку та участі викладача. Ви отримаєте доступ до матеріалів одразу після оплати.
Кому підійде:
Data Scientist-ам-початківцям – Систематизуєте та поглибите знання і поповните резюме практичними проєктами
Аналітикам – Зможете не обмежуватися базовою аналітикою і впроваджувати моделі Machine Learning, що прогнозують різні показники
Розробникам – Перейдете в сферу Data Science, підвищите рівень доходу і будете вирішувати цікаві завдання
Математикам – Застосуєте знання до нових завдань і освоїте затребувану професію
Програма:
Теорія ймовірностей і математична статистика
– Випадкові події. Умовна ймовірність. Формула Байєса. Незалежні випробування
– Дискретні випадкові величини. Закон розподілу ймовірностей. Біноміальний закон розподілу. Розподіл Пуассона
– Описова статистика. Якісні та кількісні характеристики популяції. Графічне представлення даних
– Безперервні випадкові величини. Функція розподілу та густина розподілу ймовірностей. Рівномірний і нормальний розподіл. Центральна гранична теорема
– Перевірка статистичних гіпотез. P-значення. Довірчі інтервали. A/B-тестування
– Взаємозв’язок величин. Параметричні та непараметричні показники кореляції. Кореляційний аналіз
– Багатовимірний статистичний аналіз. Лінійна регресія
– Дисперсійний аналіз. Логістична регресія
Проєкт
Розвідувальний аналіз даних (EDA) на основі обраного датасету: візуалізація, кореляційний, дисперсійний і факторний аналіз
Бібліотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
– Вступ до курсу. Вебінар
– Обчислення за допомогою Numpy. Робота з даними в Pandas. Відеоурок
– Обчислення за допомогою Numpy. Робота з даними в Pandas. Вебінар
– Візуалізація даних у Matplotlib. Відеоурок
– Візуалізація даних у Matplotlib. Вебінар
– Навчання з учителем у Scikit-learn. Відеоурок
– Навчання з учителем у Scikit-learn. Вебінар
– Навчання без вчителя в Scikit-learn. Відеоурок
– Навчання без вчителя в Scikit-learn і введення в підсумковий проєкт. Вебінар
– Консультація щодо підсумкового проєкту. Вебінар
Проект
Змагання на платформі Kaggle з передбачення ціни на нерухомість, розв’язання задачі регресії
Бібліотеки Python для Data Science: продовження
– Вступ до завдання класифікації. Постановка задачі та підготовка даних
– Аналіз даних і перевірка статистичних гіпотез
– Побудова моделі класифікації
– Оцінка та інтерпретація отриманої моделі. Обговорення курсового проекту
Проект
Змагання на платформі Kaggle з кредитного скорингу, розв’язання задачі класифікації
Наступні 2 розділи будуть додаватися пізніше, у міру додавання їх авторами.
Алгоритми аналізу даних
– Алгоритм лінійної регресії. Градієнтний спуск
– Масштабування ознак. L1- і L2-регуляризація. Стохастичний градієнтний спуск
– Логістична регресія. Log Loss
– Алгоритм побудови дерева рішень
– Випадковий ліс
– Градієнтний бустинг (AdaBoost)
– Класифікація за допомогою KNN. Кластеризація K-means
– Зниження розмірності даних
Проект
Участь в одному або двох змаганнях на Kaggle: передбачити середній бал на іспиті з математики, який отримують учні репетиторів (задача регресії); передбачити, чи підійде репетитор для підготовки до іспиту з математики (задача класифікації)
Системи машинного навчання у Production
– Вступ до завдання передбачення відтоку. Формалізація завдання і збір сирих даних
– Завантаження даних і побудова навчальної вибірки. Аналіз і попереднє опрацювання датасету. Балансування класів
– Вибір і навчання моделі на відібраних ознаках. Порівняння якості та оцінка моделі
– Оцінка потенційного впливу на бізнес. Масштабування рішення
– Підготовка до продакшену. Планувальник завдань і перенесення проєкту з Jupyter у PyCharm
Відгуки
Відгуків немає, поки що.