HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-19
1 <p>Если вы SRE-инженер, то точно знаете этот звук - звук алерта в 3:00. Вы вскакиваете, заходите в Grafana, пытаетесь сообразить, что сломалось, пока мозг ещё в режиме сна. И так снова и снова.</p>
1 <p>Если вы SRE-инженер, то точно знаете этот звук - звук алерта в 3:00. Вы вскакиваете, заходите в Grafana, пытаетесь сообразить, что сломалось, пока мозг ещё в режиме сна. И так снова и снова.</p>
2 <p>Так рождается выгорание - когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?</p>
2 <p>Так рождается выгорание - когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?</p>
3 <p><strong>Почему SRE-инженеры выгорают?</strong></p>
3 <p><strong>Почему SRE-инженеры выгорают?</strong></p>
4 <p>1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.</p>
4 <p>1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.</p>
5 <p>2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.</p>
5 <p>2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.</p>
6 <p>3️⃣ "‎Геройская культура", когда работа строится на "держимся из последних сил".</p>
6 <p>3️⃣ "‎Геройская культура", когда работа строится на "держимся из последних сил".</p>
7 <p>4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.</p>
7 <p>4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.</p>
8 <p><strong>Как избежать выгорания?</strong></p>
8 <p><strong>Как избежать выгорания?</strong></p>
9 <p>⚡️ Фильтруйте алерты</p>
9 <p>⚡️ Фильтруйте алерты</p>
10 <p>Каждый алерт должен требовать действий. Если он просто "на всякий случай", удалите его.</p>
10 <p>Каждый алерт должен требовать действий. Если он просто "на всякий случай", удалите его.</p>
11 <p>⚡️ Внедряйте автоматическое восстановление</p>
11 <p>⚡️ Внедряйте автоматическое восстановление</p>
12 <p>Упал сервис? ➡️ Автоматически перезапускаем.</p>
12 <p>Упал сервис? ➡️ Автоматически перезапускаем.</p>
13 <p>Проблема с базой? ➡️ Автоматически переключаемся на реплику.</p>
13 <p>Проблема с базой? ➡️ Автоматически переключаемся на реплику.</p>
14 <p>Чем меньше ручной работы в 3:00 ночи - тем меньше выгорания.</p>
14 <p>Чем меньше ручной работы в 3:00 ночи - тем меньше выгорания.</p>
15 <p>⚡️ Вводите Error Budget</p>
15 <p>⚡️ Вводите Error Budget</p>
16 <p>99.99% аптайма - это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.</p>
16 <p>99.99% аптайма - это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.</p>
17 <p>⚡️ Дежурства должны быть человеческими</p>
17 <p>⚡️ Дежурства должны быть человеческими</p>
18 <p>Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.</p>
18 <p>Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.</p>
19 <p>⚡️ После жёсткого инцидента - время на восстановление.</p>
19 <p>⚡️ После жёсткого инцидента - время на восстановление.</p>
20 <p>Здесь комментарии излишни.</p>
20 <p>Здесь комментарии излишни.</p>
21 <p><strong>Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали<a>здесь.</a></strong></p>
21 <p><strong>Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали<a>здесь.</a></strong></p>