0 added
0 removed
Original
2026-01-01
Modified
2026-02-19
1
<p>SRE - это про надёжность, но иногда кажется, что весь мир против нас.<strong>Какие вещи чаще всего доводят SRE-инженеров до нервного тика?</strong></p>
1
<p>SRE - это про надёжность, но иногда кажется, что весь мир против нас.<strong>Какие вещи чаще всего доводят SRE-инженеров до нервного тика?</strong></p>
2
<p>1️⃣ - А давайте зарелизим в пятницу вечером?</p>
2
<p>1️⃣ - А давайте зарелизим в пятницу вечером?</p>
3
<p>- Нет. Просто нет.</p>
3
<p>- Нет. Просто нет.</p>
4
<p>Релиз перед выходными = гарантированный Pager Hell. Если что-то пойдёт не так (а оно пойдёт), вы проведёте субботу не с друзьями, а в логах и Grafana.</p>
4
<p>Релиз перед выходными = гарантированный Pager Hell. Если что-то пойдёт не так (а оно пойдёт), вы проведёте субботу не с друзьями, а в логах и Grafana.</p>
5
<p>2️⃣ - Давайте алертить на всё подряд!</p>
5
<p>2️⃣ - Давайте алертить на всё подряд!</p>
6
<p>- Если алерты орут постоянно, их просто перестают слушать.</p>
6
<p>- Если алерты орут постоянно, их просто перестают слушать.</p>
7
<p>Настроили алерт на 5% падения запросов? Добавили ещё один на 3%? А потом ещё на миллисекунду задержки? Поздравляю, теперь SRE живёт в Pager Hell и игнорирует критические алерты.</p>
7
<p>Настроили алерт на 5% падения запросов? Добавили ещё один на 3%? А потом ещё на миллисекунду задержки? Поздравляю, теперь SRE живёт в Pager Hell и игнорирует критические алерты.</p>
8
<p>3️⃣ - Мониторинг? Да у нас есть логи!</p>
8
<p>3️⃣ - Мониторинг? Да у нас есть логи!</p>
9
<p>- Логи ≠ мониторинг!</p>
9
<p>- Логи ≠ мониторинг!</p>
10
<p>Логов может быть миллионы строк в секунду, и если искать проблему вручную - можно состариться быстрее, чем найдёшь её. Без нормальных метрик и дашбордов SRE работает в темноте.</p>
10
<p>Логов может быть миллионы строк в секунду, и если искать проблему вручную - можно состариться быстрее, чем найдёшь её. Без нормальных метрик и дашбордов SRE работает в темноте.</p>
11
<p>4️⃣ - Прод упал, а кто-то поменял конфиг. Но кто?</p>
11
<p>4️⃣ - Прод упал, а кто-то поменял конфиг. Но кто?</p>
12
<p>- Конфигурация должна быть под контролем.</p>
12
<p>- Конфигурация должна быть под контролем.</p>
13
<p>Если кто-то пофиксил что-то прямо на проде без ревью, а потом прод лёг - это худшее, что можно сделать. GitOps, версионирование, ревью - наше всё.</p>
13
<p>Если кто-то пофиксил что-то прямо на проде без ревью, а потом прод лёг - это худшее, что можно сделать. GitOps, версионирование, ревью - наше всё.</p>
14
<p>5️⃣ - Просто перезапустите контейнер, и всё заработает!</p>
14
<p>5️⃣ - Просто перезапустите контейнер, и всё заработает!</p>
15
<p>- Нет.</p>
15
<p>- Нет.</p>
16
<p>Перезапуск контейнера не решает проблему. Он просто маскирует её. Настоящий SRE должен разобраться, почему он вообще упал.</p>
16
<p>Перезапуск контейнера не решает проблему. Он просто маскирует её. Настоящий SRE должен разобраться, почему он вообще упал.</p>
17
<p>6️⃣- А давайте убьём кэш!</p>
17
<p>6️⃣- А давайте убьём кэш!</p>
18
<p>- А давайте убьём прод сразу?</p>
18
<p>- А давайте убьём прод сразу?</p>
19
<p>Очистка кэша без понимания последствий = лавина запросов в базу, перегрузка и падение сервиса.</p>
19
<p>Очистка кэша без понимания последствий = лавина запросов в базу, перегрузка и падение сервиса.</p>
20
<p>7️⃣- Зачем нам тестить отказоустойчивость? Всё и так работает!</p>
20
<p>7️⃣- Зачем нам тестить отказоустойчивость? Всё и так работает!</p>
21
<p>- До первого сбоя.</p>
21
<p>- До первого сбоя.</p>
22
<p>Если система не тестировалась на сбои, то первый реальный инцидент станет катастрофой. Поэтому SRE практикуют Chaos Engineering: намеренно ломают системы, чтобы узнать, что произойдёт.</p>
22
<p>Если система не тестировалась на сбои, то первый реальный инцидент станет катастрофой. Поэтому SRE практикуют Chaos Engineering: намеренно ломают системы, чтобы узнать, что произойдёт.</p>
23
<p>SRE-работа бесценна, но иногда кажется, что мы воюем не только с продом, но и с людьми.</p>
23
<p>SRE-работа бесценна, но иногда кажется, что мы воюем не только с продом, но и с людьми.</p>
24
<p><strong>Какой "набор выживальщика" помогает SRE-инженеру воевать с пожарами, рассказали<a>здесь.</a></strong></p>
24
<p><strong>Какой "набор выживальщика" помогает SRE-инженеру воевать с пожарами, рассказали<a>здесь.</a></strong></p>