Станьте інженером, який не лагодить, а запобігає проблемам
Site Reliability Engineering (SRE) — це підхід, розроблений у Google, який розглядає завдання експлуатації як програмну проблему. На цьому курсі ви вийдете за рамки традиційного адміністрування та DevOps. Ви навчитеся мислити категоріями надійності, доступності та продуктивності, застосовуючи інженерні практики для створення самовідновлюваних та масштабованих систем.
Чотири етапи занурення в SRE
Програма курсу побудована навколо чотирьох ключових дій, що відображають життєвий цикл роботи над будь-яким сервісом:
- Будувати: Ви сформулюєте показники SLO/SLI/SLA для сайту, розробите архітектуру, налаштуєте CI/CD, моніторинг та алертинг.
- Ламати: Ви імітуватимете реальні проблеми — від помилок коду та відмов інфраструктури до DoS-атак, вивчаючи межі стійкості системи за допомогою практик Chaos Engineering.
- Лагодити: Ви навчитеся організовувати процес ліквідації аварій у стислі терміни, керувати стресом, координувати команду та правильно комунікувати зі стейкхолдерами.
- Вивчати: Ви будете аналізувати інциденти, проводити blameless-постмортеми та приймати рішення щодо запобігання проблемам у майбутньому через автоматизацію та поліпшення архітектури.
? Детальна програма курсу
Тема 1: Основи SRE
Відмінності DevOps vs SRE, поняття SLI, SLO, SLA та Error budget.
Тема 2-4: Дизайн та запуск систем
Архітектура мікросервісів, Design for failure, чек-лист приймання проєкту, логування, метрики, трейсинг, CI/CD, capacity planning.
Тема 5: Моніторинг та Alerting
Monitoring vs. Observability, налаштування Prometheus, 4 золотих сигнали, Black-Box vs. White-Box моніторинг.
Тема 6-8: Тестування надійності та управління навантаженням
Failure-injection (Chaos Monkey), балансування навантаження, retry, timeout, circuit breaker, захист від DDoS.
Тема 9-12: Реагування на інциденти та розвиток
Практика On-Call, протоколи управління інцидентами, діагностика, налагодження, постмортеми, Canary release, розбір реальних кейсів.
Приєднуйтесь до курсу, щоб навчитися будувати системи, якими пишаються розробники та люблять користувачі.


Ви економите:
Покваптеся! Закінчується через
Формулювати та відстежувати ключові показники надійності: SLO, SLI, SLA.
Юлія Підтверджений клієнт –
Я розробник, і цей курс допоміг мені краще розуміти девопсів. Тепер ми розмовляємо однією мовою. І я почав писати більш “operability-friendly” код.
Ірина Підтверджений клієнт –
Дуже глибокий і серйозний курс. Для тих, хто вже працює адміном, але хоче рости. SRE – це майбутнє.
Максим Підтверджений клієнт –
Chaos Monkey – це було для мене відкриттям! Ламати свій продакшн, щоб зробити його сильнішим – це геніально. Дуже крутий підхід.