Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-19

1 <blockquote>12 ноября в "Слёрме" начнётся<a>интенсив по SRE</a>. На три полных дня участники погрузятся в теорию и практику поддержки высоконагруженных сервисов. Никаких задач по работе, никаких семейных дел - только учёба. Под катом рассказываем, что вас ждёт, если решите присоединиться.</blockquote><h2>Справка об SRE</h2>

2 Site Reliability Engineering (SRE) - обеспечение надёжности информационных систем. Это новый подход к поддержке сайтов, сервисов и приложений с тысячами и миллионами пользователей. Подход зародился в Google, а сейчас распространяется по всему миру. В России SRE внедрили в Яндексе, Mail.ru, Сбербанке, Тинькофф, МТС, Мегафоне и других компаниях.Инженерами по SRE становятся опытные разработчики и системные администраторы: важно глубокое знание серверных ОС, работы сети, инструментов мониторинга, а также умение программировать. На все эти хард-скиллы накладывается методология SRE - конкретные практики, которые помогают обеспечивать высокую надёжность.

3 <blockquote>"SRE - это не столько про алертинг и постмортемы. Это про то, чтобы до продакшена не доходил код, который ночью подрывает".</blockquote>Из общения с инженерами, внедрившими SRE.Долгое время основным источником знаний об SRE была одноимённая книга от Google. Сейчас есть несколько англоязычных и русскоязычных обучающих программ. Одна из них - интенсив по SRE в Слёрме.

4 <h2>Формат интенсива</h2>

5 Интенсив проходит онлайн и состоит из лекций и практических занятий. Будет трансляция в Zoom и Telegram-чат со спикерами.Два вида практики. Практические занятия предусмотрены двух видов: настройка по образцу и работа над задачами, решение которых не определено заранее. На интенсиве они называются кейсы.

6 Командная работа над реальным сервисом. Для работы над кейсами участники интенсива объединяются в команды по 5-8 человек. Каждая команда получает стенд с приложением - несколько VDS, на которых размещён сайт для заказа билетов.

7 Сервис заказа билетов, стабильную работу которого будут обеспечивать участники интенсиваИмитация сбоев. В течение интенсива в работе сайта произойдёт несколько крупных сбоев, и задача команды - найти причину, устранить и предотвратить её повторение. Кейсы основаны на реальном опыте: спикеры собрали проблемы, с которыми сталкивались за свою практику SRE, и создали среду для имитации этих проблем.

8 Опытные спикеры. Программу интенсива разработали и будут вести:

9 <ul><li>Иван Круглов, Staff Software Engineer в Databricks.</li>

10 <li>Артём Артемьев, Lead SRE в TangoMe.</li>

11 <li>Павел Селиванов, Senior DevOps Engineer в Mail.ru Cloud Solutions.</li>

12 </ul>Поддержка. Объединиться в команды и организовать совместную работу помогут кураторы. В решении сложных задач поддержат спикеры и инженеры техподдержки Слёрма.Дистанционный формат. Лекции транслируются в Zoom, обсуждение задач происходит в Slack. Все записи лекций сохранятся и будут доступны после интенсива, к ним полезно возвращаться через некоторое время, уже в более спокойной обстановке.

13 Три дня полного погружения. Интенсив рассчитан на три полных дня, с 10:00 до 18:00 по Московскому времени. Будут небольшие перерывы между лекциями и обед.

14 Старт 12 ноября. Места ещё есть.

15 <a>Узнать больше и зарегистрироваться</a>

16 Ниже полная программа интенсива.

17 <h2>День 1: знакомство с теорией SRE, настройка мониторинга и алертинга</h2>

18 В первый день вы познакомитесь с теорией SRE, научитесь настраивать мониторинг и алертинг, а также объединитесь в команду с другими участниками интенсива.Расскажем про метрики SLO, SLI, SLA и как они соотносятся с требованиями бизнеса. Поделимся Best Practices по настройке мониторинга и правилами для пожарной команды. Дадим первые практические кейсы.

19 Тема 1: Мониторинг

20 <ul><li>Зачем нужен мониторинг,</li>

21 <li>Symptoms vs Causes,</li>

22 <li>Black-Box vs. White-Box Monitoring,</li>

23 <li>Golden Signals,</li>

24 <li>Перцентили,</li>

25 <li>Alerting,</li>

26 <li>Observability.</li>

27 </ul>Практика: Делаем базовый дашборд и настраиваем необходимые алерты.Тема 2: Теория SRE

28 <ul><li>SLO, SLI, SLA,</li>

29 <li>Durability,</li>

30 <li>Error budget.</li>

31 </ul>Практика: Добавляем на дашборд SLO/SLI + алерты.Практика: Первая нагрузка системы.<blockquote>Кейс 1: downstream-зависимость. В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down. Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.</blockquote>Тема 3: Управление инцидентами<ul><li>Resiliencе Engineering,</li>

32 <li>Как выстраивается пожарная бригада,</li>

33 <li>Насколько ваша команда эффективна в инциденте,</li>

34 <li>7 правил для лидера инцидента,</li>

35 <li>5 правил для пожарного,</li>

36 <li>HiPPO - highest paid person's opinion. Communications Leader.</li>

37 </ul><blockquote>Кейс 2: upstream-зависимость. Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой. В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.</blockquote>Тема 4: SRE онбординг проектаВ крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать.<h2>День 2: решение проблем с окружением и архитектурой</h2>

38 Второй день практически полностью построен вокруг решения двух кейсов: проблемы с окружением (здесь будет подробный разбор Health Checking) и проблемы с архитектурой. Спикеры расскажут про работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.Тема 5: Health Checking

39 <ul><li>Health Check в Kubernetes,</li>

40 <li>Жив ли наш сервис?</li>

41 <li>Exec probes,</li>

42 <li>initialDelaySeconds,</li>

43 <li>Secondary Health Port,</li>

44 <li>Sidecar Health Server,</li>

45 <li>Headless Probe,</li>

46 <li>Hardware Probe.</li>

47 </ul><blockquote>Кейс 3: проблемы с окружением и правильный Healthcheck. Задача Healthcheck - обнаружить неработающий сервис и заблокировать трафик к нему, чтобы пользователи не столкнулись с проблемой. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность - проблемы могут быть в окружении. Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.</blockquote>Тема 6: Практика работы с постмортемами - пишем постмортем по предыдущему кейсу и разбираем его со спикерами.Тема 7: Решение проблем с инфраструктурой

48 <ul><li>Мониторинг MySQL,</li>

49 <li>SLO/SLI для MySQL,</li>

50 <li>Anomaly detection.</li>

51 </ul><blockquote>Кейс 4: проблемы с БД. База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы - непонятно. Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.</blockquote><h2>День 3: traffic shielding и канареечные релизы</h2>

52 Тут два кейса про высокую доступность продакшена: traffic shielding и canary deployment. Вы узнаете об этих подходах и научитесь их применять. Хардкорной настройки руками не планируем, хотя кто знает.Тема 8: Traffic shielding

53 <ul><li>поведение графиков роста кол-ва запросов и бизнес операций</li>

54 <li>понятие saturation и capacity planning</li>

55 <li>traffic shielding и внедрение rate limiting</li>

56 <li>настройка sidecar с rate-limiting на 100 запросов в секунду</li>

57 </ul><blockquote>Кейс 5: traffic shielding. Когда падает прод? Например, когда мощности рассчитаны на 100 пользователей, а приходит 1000. Вы столкнётесь с подобным кейсом и научитесь делать так, чтобы система не падала целиком, а продолжала обслуживать то количество клиентов, на которое была рассчитана. Блокируя избыточный трафик, вы сохраните возможность системы выполнять задачи для части пользователей.</blockquote>Тема 9: Canary Deployment<ul><li>стратегии деплоя в k8s (Rolling Update vs Recreate),</li>

58 <li>canary и blue-green стратегии,</li>

59 <li>обзор инструментов для blue-gree/canary release в k8s,</li>

60 <li>настройка canary release в GitLab CI/CD,</li>

61 <li>пояснение схемы работы canary release,</li>

62 <li>внесение изменений в .gitlab-ci.yml.</li>

63 </ul><blockquote>Кейс 6: проблемы с кодом. Как бы хорошо новые фичи не работали на стейджинге,</blockquote><blockquote>всегда есть вероятность, что в продакшене что-то пойдёт не так. Снизить потенциальный ущерб можно, если выкатить обновление только на часть пользователей и предусмотреть возможность быстрого отката назад. Подобный подход называется Canary Deployment, и через практический кейс вы научитесь его применять.</blockquote><a>Узнать больше и записаться</a>