Мова викладання в курсі — російська. Незабаром буде доступна українська версія цього курсу.
Відеозаписи лекцій без зворотного зв'язку та участі викладача. Ви отримаєте доступ до матеріалів одразу після оплати.
На курсі ви будете:
Будувати
Сформулюєте показники SLO, SLI, SLA для сайту, що складається з кількох мікросервісів, розробите архітектуру та інфраструктуру, яка їх забезпечить, зберете, протестуєте і задеплоїте сайт, налаштуєте моніторинг та алертинг.
Ламати
Розгляньте внутрішні та зовнішні чинники погіршення SLO: помилки розробників, відмови інфраструктури, наплив відвідувачів, DoS-атаки. Розберетеся в стійкості, error budget, практиці тестування, управлінні перериваннями та операційній
навантаженням.
Лагодити
Організуєте роботу групи з ліквідації аварії в мінімальні строки: підключення колег, оповіщення інтересантів (stakeholders), вибудовування пріоритетів. Імітація реальних умов: відновлення працездатності сервісу в умовах гранично обмеженого часу.
Вивчати
Розберете підхід до сайту з точки зору SRE. Проаналізуєте інциденти (причини виникнення, хід усунення). Приймете рішення щодо їх подальшого запобігання: поліпшити моніторинг, змінити архітектуру, підхід до розробки та експлуатації, регламенти. Автоматизуєте процеси.
Вимоги:
— Свободное владение Linux;
— Любой язык программирования: уровень Junior;
— GitLab: навыки автоматизации;
— Prometheus: навыки мониторинга;
— Kubernetes: навыки работы в кластере.
Тема №1: Основні принципи та методи SRE
— Что нужно чтобы стать SRE?
— DevOps vs SRE
— Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
— SLI, SLO и SLA
— Error budget и его роль в SRE
Тема №2: Дизайн розподілених систем
— Архитектура и функционал приложения
— Non-Abstract Large System Design
— Operability / Design for failure
— gRPC или REST
— Версионирование и обратная совместимость
Тема №3: Як приймають проєкт SRE
— Лучшие практики от SRE
— Чек-лист приема проекта
— Логирование, метрики, трейсинг
— Забираем CI/CD в свои руки
Тема №4: Проектування та запуск розподіленої системи
— Обратное проектирование — как работает система?
— Согласовываем SLI и SLO
— Практика capacity planning
— Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
— Запускаем Prometheus, Grafana, Elastic
Тема №5: Моніторинг, спостережливість та оповіщення
— Monitoring vs. Observability
— Настраиваем мониторинг и алертинг с Prometheus
— Практический мониторинг SLI и SLO
— Symptoms vs. Causes
— Black-Box vs. White-Box Monitoring
— Распределенный мониторинг доступности приложений и серверов
— 4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестування надійності систем
— Работа под давлением
— Failure-injection
— Chaos Monkey
Тема №7: Практика incident response
— Алгоритм управления стрессом
— Взаимодействие между участниками инцидента
— Постмортем
— Knowledge sharing
— Формирование культуры
— Контроль неисправностей
— Проведение blameless разбора полетов
Тема №8: Практика управління навантаженням
— Балансировка нагрузки
— Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
— DDoS (создаем нагрузку) Cascading Failures
Тема №9: Реагування на інциденти
— Разбор полетов
— Практика On-Call
— Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
— Протоколы управления инцидентами
Тема №10: Діагностика та вирішення проблем
— Журналирование
— Отладка
— Практика анализа и отладки на нашем приложении
Тема №11: Тестування надійності систем
— Нагрузочное тестирование
— Тестирование конфигураций
— Тестирование производительности
— Canary release
Тема №12: Самостійна робота та рев'ю
— Реальные кейсы
— Проверка спикерами
Відгуки
Відгуків немає, поки що.