HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: sre, site reliability engineering</p>
1 <p>Теги: sre, site reliability engineering</p>
2 <p>В книге "Site Reliability Engineering" есть полезная глава про мониторинг распределенных систем, где описан подход Google, основанный на отслеживании "четырех золотых сигналов" (<strong>Four Golden Signals</strong>). О них и поговорим.</p>
2 <p>В книге "Site Reliability Engineering" есть полезная глава про мониторинг распределенных систем, где описан подход Google, основанный на отслеживании "четырех золотых сигналов" (<strong>Four Golden Signals</strong>). О них и поговорим.</p>
3 <ol><li><strong>Задержка (Latency)</strong>-- сколько времени занимает обработка запроса? Определите ориентир для задержек, типичных для успешных запросов, и сравните его с задержками для неуспешных запросов. Отслеживание задержек, вызванных ошибками, позволяет решить любые вопросы, связанные со скоростью выявления инцидента и реакции на него.</li>
3 <ol><li><strong>Задержка (Latency)</strong>-- сколько времени занимает обработка запроса? Определите ориентир для задержек, типичных для успешных запросов, и сравните его с задержками для неуспешных запросов. Отслеживание задержек, вызванных ошибками, позволяет решить любые вопросы, связанные со скоростью выявления инцидента и реакции на него.</li>
4 <li><strong>Трафик (Traffic)</strong>-- какое влияние на систему оказывает количество пользователей или число транзакций, проходящих через сервис? Отслеживая взаимодействие с реальными пользователями и трафик, можно лучше понять, как конечные пользователи воспринимают сервис, и получить представление о том, как системы ведут себя в условиях стресса.</li>
4 <li><strong>Трафик (Traffic)</strong>-- какое влияние на систему оказывает количество пользователей или число транзакций, проходящих через сервис? Отслеживая взаимодействие с реальными пользователями и трафик, можно лучше понять, как конечные пользователи воспринимают сервис, и получить представление о том, как системы ведут себя в условиях стресса.</li>
5 <li><strong>Ошибки (Errors)</strong>-- независимо от того, вызваны ли ошибки заданной вручную логикой или автономны (вроде неудавшегося HTTP-запроса),<strong>SRE-команды</strong>должны отслеживать их. Многие SRE-команды используют специальное ПО для управления инцидентами для оповещений о критических ошибках, поиска их причин и проведения работ по устранению последствий.</li>
5 <li><strong>Ошибки (Errors)</strong>-- независимо от того, вызваны ли ошибки заданной вручную логикой или автономны (вроде неудавшегося HTTP-запроса),<strong>SRE-команды</strong>должны отслеживать их. Многие SRE-команды используют специальное ПО для управления инцидентами для оповещений о критических ошибках, поиска их причин и проведения работ по устранению последствий.</li>
6 <li><strong>Насыщенность (Saturation)</strong>-- важно задать метрику для насыщенности, которая бы означала, что сервис достиг максимума своих возможностей. Большинство сервисов начинают терять производительность еще до того, как загрузка достигнет 100%, поэтому понимание функциональности вашей собственной системы важно для определения ориентира насыщенности, который имеет смысл.</li>
6 <li><strong>Насыщенность (Saturation)</strong>-- важно задать метрику для насыщенности, которая бы означала, что сервис достиг максимума своих возможностей. Большинство сервисов начинают терять производительность еще до того, как загрузка достигнет 100%, поэтому понимание функциональности вашей собственной системы важно для определения ориентира насыщенности, который имеет смысл.</li>
7 </ol><p>Собираются золотые сигналы по нескольким<strong>причинам</strong>: • Оповещение -- сигналы сообщают, когда что-то не так. • Устранение неполадок -- сигналы помогают найти и устранить проблему. • Настройка и планирование мощностей -- сигналы помогают улучшить ситуацию с течением времени.</p>
7 </ol><p>Собираются золотые сигналы по нескольким<strong>причинам</strong>: • Оповещение -- сигналы сообщают, когда что-то не так. • Устранение неполадок -- сигналы помогают найти и устранить проблему. • Настройка и планирование мощностей -- сигналы помогают улучшить ситуацию с течением времени.</p>
8 <p><em>Больше полезных материалов на разные темы смотрите в моем телеграм-канале: https://t.me/FreshProductGo.</em></p>
8 <p><em>Больше полезных материалов на разные темы смотрите в моем телеграм-канале: https://t.me/FreshProductGo.</em></p>
9  
9