Станьте инженером, который не чинит, а предотвращает проблемы
Site Reliability Engineering (SRE) — это подход, разработанный в Google, который рассматривает задачи эксплуатации как программную проблему. На этом курсе вы выйдете за рамки традиционного администрирования и DevOps. Вы научитесь мыслить категориями надежности, доступности и производительности, применяя инженерные практики для создания самовосстанавливающихся и масштабируемых систем.
Четыре этапа погружения в SRE
Программа курса построена вокруг четырех ключевых действий, отражающих жизненный цикл работы над любым сервисом:
- Строить: Вы сформулируете показатели SLO/SLI/SLA для сайта, разработаете архитектуру, настроите CI/CD, мониторинг и алертинг.
- Ломать: Вы будете имитировать реальные проблемы — от ошибок кода и отказов инфраструктуры до DoS-атак, изучая пределы устойчивости системы с помощью практик Chaos Engineering.
- Чинить: Вы научитесь организовывать процесс ликвидации аварий в сжатые сроки, управлять стрессом, координировать команду и правильно коммуницировать со стейкхолдерами.
- Изучать: Вы будете анализировать инциденты, проводить blameless-постмортемы и принимать решения по предотвращению проблем в будущем через автоматизацию и улучшение архитектуры.
? Подробная программа курса
Тема 1: Основы SRE
Отличия DevOps vs SRE, понятия SLI, SLO, SLA и Error budget.
Тема 2-4: Дизайн и запуск систем
Архитектура микросервисов, Design for failure, чек-лист приемки проекта, логирование, метрики, трейсинг, CI/CD, capacity planning.
Тема 5: Мониторинг и Alerting
Monitoring vs. Observability, настройка Prometheus, 4 золотых сигнала, Black-Box vs. White-Box мониторинг.
Тема 6-8: Тестирование надежности и управление нагрузкой
Failure-injection (Chaos Monkey), балансировка нагрузки, retry, timeout, circuit breaker, защита от DDoS.
Тема 9-12: Реагирование на инциденты и развитие
Практика On-Call, протоколы управления инцидентами, диагностика, отладка, постмортемы, Canary release, разбор реальных кейсов.
Присоединяйтесь к курсу, чтобы научиться строить системы, которыми гордятся разработчики и которые любят пользователи.


Вы экономите:
Поторопитесь! Заканчивается через
Формулировать и отслеживать ключевые показатели надежности: SLO, SLI, SLA.
Максим Подтвержденный клиент –
Chaos Monkey – это было для меня открытием! Ломать свой продакшн, чтобы сделать его сильнее – это гениально. Очень крутой подход.
Ирина Подтвержденный клиент –
Очень глубокий и серьезный курс. Для тех, кто уже работает админом, но хочет расти. SRE – это будущее.
Юлия Подтвержденный клиент –
Я разработчик, и этот курс помог мне лучше понимать девопсов. Теперь мы разговариваем на одном языке. И я начал писать более “operability-friendly” код.