Мова викладання в курсі – російська. Незабаром буде доступна українська версія цього курсу.
Відеозаписи лекцій без зворотного зв’язку та участі викладача. Ви отримаєте доступ до матеріалів одразу після оплати.
На курсі ви будете:
Будувати
Сформулюєте показники SLO, SLI, SLA для сайту, що складається з кількох мікросервісів, розробите архітектуру та інфраструктуру, яка їх забезпечить, зберете, протестуєте і задеплоїте сайт, налаштуєте моніторинг та алертинг.
Ламати
Розгляньте внутрішні та зовнішні чинники погіршення SLO: помилки розробників, відмови інфраструктури, наплив відвідувачів, DoS-атаки. Розберетеся в стійкості, error budget, практиці тестування, управлінні перериваннями та операційним
навантаженням.
Лагодити
Організуєте роботу групи з ліквідації аварії в мінімальні строки: підключення колег, оповіщення інтересантів (stakeholders), вибудовування пріоритетів. Імітація реальних умов: відновлення працездатності сервісу в умовах гранично обмеженого часу.
Вивчати
Розберете підхід до сайту з точки зору SRE. Проаналізуєте інциденти (причини виникнення, хід усунення). Приймете рішення щодо їх подальшого запобігання: поліпшити моніторинг, змінити архітектуру, підхід до розробки та експлуатації, регламенти. Автоматизуєте процеси.
Вимоги:
– Вільне володіння Linux;
– Будь-яка мова програмування: рівень Junior;
– GitLab: навички автоматизації;
– Prometheus: навички моніторингу;
– Kubernetes: навички роботи в кластері.
Тема №1: Основні принципи та методи SRE
– Що потрібно, щоб стати SRE?
– DevOps vs SRE
– Чому розробники цінують SRE і дуже сумують, коли в проєкті їх немає
– SLI, SLO і SLA
– Error budget і його роль у SRE
Тема №2: Дизайн розподілених систем
– Архітектура та функціонал застосунку
– Non-Abstract Large System Design
– Operability/Design for failure
– gRPC або REST
– Версіонування та зворотна сумісність
Тема №3: Як приймають проєкт SRE
– Найкращі практики від SRE
– Чек-лист приймання проєкту
– Логування, метрики, трейсинг
– Забираємо CI/CD у свої руки
Тема №4: Проектування і запуск розподіленої системи
– Зворотне проєктування – як працює система?
– Узгоджуємо SLI і SLO
– Практика capacity planning
– Запуск трафіку на додаток, наші користувачі починають ним “користуватися”
– Запускаємо Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
– Monitoring vs. Observability
– Налаштовуємо моніторинг і алертинг з Prometheus
– Практичний моніторинг SLI і SLO
– Symptoms vs. Causes
– Black-Box vs. White-Box Monitoring
– Розподілений моніторинг доступності застосунків і серверів
– 4 золотих сигнали (виявлення аномалій)
Тема №6: Практика тестування надійності систем
– Робота під тиском
– Failure-injection
– Chaos Monkey
Тема №7: Практика incident response
– Алгоритм управління стресом
– Взаємодія між учасниками інциденту
– Постмортем
– Knowledge sharing
– Формування культури
– Контроль несправностей
– Проведення blameless розбору польотів
Тема №8: Практика управління навантаженням
– Балансування навантаження
– Відмовостійкість додатків: retry, timeout, failure injection, circuit breaker
– DDoS (створюємо навантаження) Cascading Failures
Тема №9: Реагування на інциденти
– Розбір польотів
– Практика On-Call
– Різні типи аварій (тестування, зміна конфігурації, збій обладнання)
– Протоколи управління інцидентами
Тема №10: Діагностика та вирішення проблем
– Журналювання
– Налагодження
– Практика аналізу та налагодження на нашому додатку
Тема №11: Тестування надійності систем
– Навантажувальне тестування
– Тестування конфігурацій
– Тестування продуктивності
– Canary release
Тема №12: Самостійна робота та рев’ю
– Реальні кейси
– Перевірка спікерами
Відгуки
Відгуків немає, поки що.