0 added
0 removed
Original
2026-01-01
Modified
2026-02-19
1
<p>Если вы SRE-инженер, то точно знаете этот звук - звук алерта в 3:00. Вы вскакиваете, заходите в Grafana, пытаетесь сообразить, что сломалось, пока мозг ещё в режиме сна. И так снова и снова.</p>
1
<p>Если вы SRE-инженер, то точно знаете этот звук - звук алерта в 3:00. Вы вскакиваете, заходите в Grafana, пытаетесь сообразить, что сломалось, пока мозг ещё в режиме сна. И так снова и снова.</p>
2
<p>Так рождается выгорание - когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?</p>
2
<p>Так рождается выгорание - когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?</p>
3
<p><strong>Почему SRE-инженеры выгорают?</strong></p>
3
<p><strong>Почему SRE-инженеры выгорают?</strong></p>
4
<p>1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.</p>
4
<p>1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.</p>
5
<p>2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.</p>
5
<p>2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.</p>
6
<p>3️⃣ "Геройская культура", когда работа строится на "держимся из последних сил".</p>
6
<p>3️⃣ "Геройская культура", когда работа строится на "держимся из последних сил".</p>
7
<p>4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.</p>
7
<p>4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.</p>
8
<p><strong>Как избежать выгорания?</strong></p>
8
<p><strong>Как избежать выгорания?</strong></p>
9
<p>⚡️ Фильтруйте алерты</p>
9
<p>⚡️ Фильтруйте алерты</p>
10
<p>Каждый алерт должен требовать действий. Если он просто "на всякий случай", удалите его.</p>
10
<p>Каждый алерт должен требовать действий. Если он просто "на всякий случай", удалите его.</p>
11
<p>⚡️ Внедряйте автоматическое восстановление</p>
11
<p>⚡️ Внедряйте автоматическое восстановление</p>
12
<p>Упал сервис? ➡️ Автоматически перезапускаем.</p>
12
<p>Упал сервис? ➡️ Автоматически перезапускаем.</p>
13
<p>Проблема с базой? ➡️ Автоматически переключаемся на реплику.</p>
13
<p>Проблема с базой? ➡️ Автоматически переключаемся на реплику.</p>
14
<p>Чем меньше ручной работы в 3:00 ночи - тем меньше выгорания.</p>
14
<p>Чем меньше ручной работы в 3:00 ночи - тем меньше выгорания.</p>
15
<p>⚡️ Вводите Error Budget</p>
15
<p>⚡️ Вводите Error Budget</p>
16
<p>99.99% аптайма - это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.</p>
16
<p>99.99% аптайма - это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.</p>
17
<p>⚡️ Дежурства должны быть человеческими</p>
17
<p>⚡️ Дежурства должны быть человеческими</p>
18
<p>Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.</p>
18
<p>Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.</p>
19
<p>⚡️ После жёсткого инцидента - время на восстановление.</p>
19
<p>⚡️ После жёсткого инцидента - время на восстановление.</p>
20
<p>Здесь комментарии излишни.</p>
20
<p>Здесь комментарии излишни.</p>
21
<p><strong>Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали<a>здесь.</a></strong></p>
21
<p><strong>Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали<a>здесь.</a></strong></p>