Observability: онлайн-курс для SRE-инженеров, обучение по SRE-практикам на платформе Слёрм
2026-02-19 17:06 Diff

Для SRE-инженеров, которые хотят взять под контроль состояние системы. Научитесь агрегировать SLO/SLI в одну или несколько высокоуровневых метрик.

Для выполнения практических заданий выделяем стенды

Онлайн-встречи со спикером

Онлайн-встречи в формате «вопрос-ответ»

Сертификат об окончании обучения

Именной сертификат с индивидуальным номером

Для тех, у кого есть базовые знания об SRE-практиках

Для SRE-инженеров, которые хотят повысить отказоустойчивость системы

Для компаний, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца

Для команд, которые хотят наладить внутренние процессы и научиться настраивать мониторинг

Навыки программирования: вам предстоит писать код на Python

Опыт настройки мониторинга: Prometheus, Grafana и др.

Стек, с которым будете работать:

Реализовывать Non Functional Requirements — требования для оценки качества технической работы

Выбирать метрики, чтобы с их помощью успешно определять надёжность системы

«Читать» по метрикам, что с системой что-то не так

Рассчитывать error budget

Применять классические воронки

Измерять надежность точек входа

У меня есть 100 микросервисов, я умею мерить надёжность каждого, но бизнес хочет что-то простое и понятное, а не 100 независимых метрик

Хочу научиться замечать инцидент в зачатке на графике и по алерту, чтобы предотвратить панику и стресс в моменте

Достало, что про сбои в работе я узнаю от пользователей и саппорта, но я не знаю, как это изменить

Хочу объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в моменте инцидента

Хочу договориться с бизнесом о расстановке приоритетов: выкатывать фичи или работать над надёжностью

На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно.

Общие подходы к формированию мониторинга

Чтобы научиться работать с основными Golden Signals SRE на любом сервисе для эффективности мониторинга и оповещения

  • Настраиваем Golden Signals для приложения
  • Изучаем метрики Golden Signals в разрезе реальных приложений
  • Работаем с разными инфраструктурными паттернами

Чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений

  • Применяем методы математической статистики в работе с метриками и определяем, какие отклонения значимы и действительно являются аварией
  • Строим систему алертов, учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия
  • Разбираем сложные сценарии при построении системы алертов, строим бейзлайн
  • Учимся выбирать и настраивать silence periods для алертов так, чтобы они не спамили во время работы с инцидентом

Мониторинг множества сервисов

Чтобы научиться приоритизировать таски, даже если продакт каждого из 100 сервисов говорит, что его задача самая критичная

  • Работаем с прозрачными бизнес-метриками надёжности приложения
  • Разбираем аспекты использования приложений пользователями, чтобы иметь легко измеряемую надёжность через стартовые точки
  • Учимся строить систему метрик для множества сервисов и понимать, что каждый сервис надёжен по отдельности

Более 10 лет в разработке. Фанат метрик. Регулярный докладчик на конференциях и митапах.

На вебинаре обсуждали главные вопросы, связанные с observability:

  • Какие подходы используют в мониторинге?
  • Зачем и как мониторить самого себя?
  • Какие подходы есть у геораспределённых систем?
  • Как большие компании типа Google работают с мониторингом?

После вебинара у вас будет представление о трендах в Observability, о подходах в мониторинге и о метриках. Наслаждайтесь просмотром!

Внешнее observability а-ля black-box

Именное свидетельство о прохождении курса получает студент, который:

  • прошёл 80% курса
  • принимал участие в мастер-классах, которые входят в курс

Видеоуроки, доступ 2 года

в рассрочку на 4 месяца или 13 000 ₽

25 000 ₽

единовременно

В 75% случаев обучение готова оплатить компания. Напишите нам, и мы поможем.

Курс за счёт работодателя

Предоставим все необходимые документы для получения вычета.

от 10 человек
специальные условия

Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)

Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.

Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)

Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.

только для физических лиц

В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.