0 added
0 removed
Original
2026-01-01
Modified
2026-02-19
1
<p>Если вы когда-нибудь работали с продом, то точно сталкивались с ситуациями, когда "всё сломалось, а виноваты вы". Но в мире SRE к этому подходят с философией: инциденты неизбежны, но их можно пережить с меньшей болью. Для этого существуют отдельные понятия:</p>
1
<p>Если вы когда-нибудь работали с продом, то точно сталкивались с ситуациями, когда "всё сломалось, а виноваты вы". Но в мире SRE к этому подходят с философией: инциденты неизбежны, но их можно пережить с меньшей болью. Для этого существуют отдельные понятия:</p>
2
<p><strong>Pager Hell - когда алерты превращают вашу жизнь в ад</strong></p>
2
<p><strong>Pager Hell - когда алерты превращают вашу жизнь в ад</strong></p>
3
<ul><li>Вы ложитесь спать, но в 3:00 ночи приходит тревожное уведомление.</li>
3
<ul><li>Вы ложитесь спать, но в 3:00 ночи приходит тревожное уведомление.</li>
4
<li>Вы засыпаете снова - оно орёт через десять минут.</li>
4
<li>Вы засыпаете снова - оно орёт через десять минут.</li>
5
<li>Вы просыпаетесь в панике, заходите в Grafana, видите аномалии, но не понимаете, что происходит.</li>
5
<li>Вы просыпаетесь в панике, заходите в Grafana, видите аномалии, но не понимаете, что происходит.</li>
6
</ul><p>Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:</p>
6
</ul><p>Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:</p>
7
<p>☑️ фильтрацией алертов (не орать на всё подряд);</p>
7
<p>☑️ фильтрацией алертов (не орать на всё подряд);</p>
8
<p>☑️ автоматизацией рутинных решений (Self-healing системы);</p>
8
<p>☑️ автоматизацией рутинных решений (Self-healing системы);</p>
9
<p>☑️ Error Budget (планирование допустимых сбоев).<em>Подробнее о нём рассказывали<a>тут.</a></em></p>
9
<p>☑️ Error Budget (планирование допустимых сбоев).<em>Подробнее о нём рассказывали<a>тут.</a></em></p>
10
<p><strong>Toil - бесполезная и повторяющаяся работа</strong></p>
10
<p><strong>Toil - бесполезная и повторяющаяся работа</strong></p>
11
<p>Это рутинные задачи, которые не приносят ценности, но пожирают время:</p>
11
<p>Это рутинные задачи, которые не приносят ценности, но пожирают время:</p>
12
<ul><li>ручные деплои, которые можно автоматизировать;</li>
12
<ul><li>ручные деплои, которые можно автоматизировать;</li>
13
<li>поиск в логах без нормального мониторинга;</li>
13
<li>поиск в логах без нормального мониторинга;</li>
14
<li>чек-листы вместо скриптов.</li>
14
<li>чек-листы вместо скриптов.</li>
15
</ul><p><em>Google считает, что Toil не должно занимать больше 50% времени SRE.</em>Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.</p>
15
</ul><p><em>Google считает, что Toil не должно занимать больше 50% времени SRE.</em>Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.</p>
16
<p><strong>Blameless Culture - когда виноватых не ищут</strong></p>
16
<p><strong>Blameless Culture - когда виноватых не ищут</strong></p>
17
<p>Представьте: прод упал, бизнес злится, начальство требует "найти виновного". Но в SRE-культуре винить людей бессмысленно - всегда виновата система.</p>
17
<p>Представьте: прод упал, бизнес злится, начальство требует "найти виновного". Но в SRE-культуре винить людей бессмысленно - всегда виновата система.</p>
18
<p>❗️Плохая практика: "Кто сломал прод?"</p>
18
<p>❗️Плохая практика: "Кто сломал прод?"</p>
19
<p>☑️ Хорошая практика: "Почему система позволила человеку сломать прод?"</p>
19
<p>☑️ Хорошая практика: "Почему система позволила человеку сломать прод?"</p>
20
<p>Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.</p>
20
<p>Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.</p>
21
<p><strong>Вывод:</strong></p>
21
<p><strong>Вывод:</strong></p>
22
<ol><li>Pager Hell - если уведомления будят вас по ночам, у вас проблемы с алертами.</li>
22
<ol><li>Pager Hell - если уведомления будят вас по ночам, у вас проблемы с алертами.</li>
23
<li>Toil - если вы тратите дни на рутину, а не на инженерию, значит, пора автоматизировать.</li>
23
<li>Toil - если вы тратите дни на рутину, а не на инженерию, значит, пора автоматизировать.</li>
24
<li>Blameless Culture - если ищете виновных, а не причины сбоя, значит, вы не про SRE.</li>
24
<li>Blameless Culture - если ищете виновных, а не причины сбоя, значит, вы не про SRE.</li>
25
</ol><p>Как у вас обстоят дела с этими понятиями?</p>
25
</ol><p>Как у вас обстоят дела с этими понятиями?</p>