HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-19
1 <p>Если вы когда-нибудь работали с продом, то точно сталкивались с ситуациями, когда "всё сломалось, а виноваты вы". Но в мире SRE к этому подходят с философией: инциденты неизбежны, но их можно пережить с меньшей болью. Для этого существуют отдельные понятия:</p>
1 <p>Если вы когда-нибудь работали с продом, то точно сталкивались с ситуациями, когда "всё сломалось, а виноваты вы". Но в мире SRE к этому подходят с философией: инциденты неизбежны, но их можно пережить с меньшей болью. Для этого существуют отдельные понятия:</p>
2 <p><strong>Pager Hell - когда алерты превращают вашу жизнь в ад</strong></p>
2 <p><strong>Pager Hell - когда алерты превращают вашу жизнь в ад</strong></p>
3 <ul><li>Вы ложитесь спать, но в 3:00 ночи приходит тревожное уведомление.</li>
3 <ul><li>Вы ложитесь спать, но в 3:00 ночи приходит тревожное уведомление.</li>
4 <li>Вы засыпаете снова - оно орёт через десять минут.</li>
4 <li>Вы засыпаете снова - оно орёт через десять минут.</li>
5 <li>Вы просыпаетесь в панике, заходите в Grafana, видите аномалии, но не понимаете, что происходит.</li>
5 <li>Вы просыпаетесь в панике, заходите в Grafana, видите аномалии, но не понимаете, что происходит.</li>
6 </ul><p>Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:</p>
6 </ul><p>Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:</p>
7 <p>☑️ фильтрацией алертов (не орать на всё подряд);</p>
7 <p>☑️ фильтрацией алертов (не орать на всё подряд);</p>
8 <p>☑️ автоматизацией рутинных решений (Self-healing системы);</p>
8 <p>☑️ автоматизацией рутинных решений (Self-healing системы);</p>
9 <p>☑️ Error Budget (планирование допустимых сбоев).<em>Подробнее о нём рассказывали<a>тут.</a></em></p>
9 <p>☑️ Error Budget (планирование допустимых сбоев).<em>Подробнее о нём рассказывали<a>тут.</a></em></p>
10 <p><strong>Toil - бесполезная и повторяющаяся работа</strong></p>
10 <p><strong>Toil - бесполезная и повторяющаяся работа</strong></p>
11 <p>Это рутинные задачи, которые не приносят ценности, но пожирают время:</p>
11 <p>Это рутинные задачи, которые не приносят ценности, но пожирают время:</p>
12 <ul><li>ручные деплои, которые можно автоматизировать;</li>
12 <ul><li>ручные деплои, которые можно автоматизировать;</li>
13 <li>поиск в логах без нормального мониторинга;</li>
13 <li>поиск в логах без нормального мониторинга;</li>
14 <li>чек-листы вместо скриптов.</li>
14 <li>чек-листы вместо скриптов.</li>
15 </ul><p><em>Google считает, что Toil не должно занимать больше 50% времени SRE.</em>Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.</p>
15 </ul><p><em>Google считает, что Toil не должно занимать больше 50% времени SRE.</em>Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.</p>
16 <p><strong>Blameless Culture - когда виноватых не ищут</strong></p>
16 <p><strong>Blameless Culture - когда виноватых не ищут</strong></p>
17 <p>Представьте: прод упал, бизнес злится, начальство требует "найти виновного". Но в SRE-культуре винить людей бессмысленно - всегда виновата система.</p>
17 <p>Представьте: прод упал, бизнес злится, начальство требует "найти виновного". Но в SRE-культуре винить людей бессмысленно - всегда виновата система.</p>
18 <p>❗️Плохая практика: "Кто сломал прод?"</p>
18 <p>❗️Плохая практика: "Кто сломал прод?"</p>
19 <p>☑️ Хорошая практика: "Почему система позволила человеку сломать прод?"</p>
19 <p>☑️ Хорошая практика: "Почему система позволила человеку сломать прод?"</p>
20 <p>Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.</p>
20 <p>Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.</p>
21 <p><strong>Вывод:</strong></p>
21 <p><strong>Вывод:</strong></p>
22 <ol><li>Pager Hell - если уведомления будят вас по ночам, у вас проблемы с алертами.</li>
22 <ol><li>Pager Hell - если уведомления будят вас по ночам, у вас проблемы с алертами.</li>
23 <li>Toil - если вы тратите дни на рутину, а не на инженерию, значит, пора автоматизировать.</li>
23 <li>Toil - если вы тратите дни на рутину, а не на инженерию, значит, пора автоматизировать.</li>
24 <li>Blameless Culture - если ищете виновных, а не причины сбоя, значит, вы не про SRE.</li>
24 <li>Blameless Culture - если ищете виновных, а не причины сбоя, значит, вы не про SRE.</li>
25 </ol><p>Как у вас обстоят дела с этими понятиями?</p>
25 </ol><p>Как у вас обстоят дела с этими понятиями?</p>