Rivalry2

HTML Diff

1 added 1 removed

Original 2026-01-01

Modified 2026-02-19

1 - Практический симулятор разного рода инцидентов в продакшн-кластере. Благодаря этой практике можно прокачать скиллы дебага и восстановления кластера без риска для реального прода.

1 + Траблшутинг неисправностей в продакшн-кластере. Прокачайте навык выявления и устранения неисправностей без риска для реального прода.

2 Практические задания с решением от эксперта в конце и возможностью проверить себя

3 Предоставляем полную инфраструктуру для выполнения практических задач. На этих стендах смоделированы реальные инциденты - протухшие сертификаты, сбои etcd, ошибки kubelet, неравномерное распределение подов и другие сбои кластеров

4 Отрабатываете именно те сценарии, которые могут случиться в реальных проектах. Вы уже будете готовы к любому сбою в боевом кластере, поскольку научились с ним справляться заранее

5 Безопасность обучения: вы тренируетесь на копиях продакшена, без риска вызвать простой сервисов или потерю данных

6 Диагностике и устранении инцидентов

7 Поиске причин проблем в сертификатах, сетевых политиках, kubelet, etcd и пр.

8 Настройке надежного кластера (обновления, ротация сертификатов, Service Mesh и др.

9 SRE в крупном нидерландском тревелтехе, Ex-Avito Senior Software Engineer

10 <ul><li>Пишет сложные проекты с нетривиальной бизнес-логикой на php, python, golang и немного на java и nodejs</li>

11 </ul><ul><li>Реализовывал динамические интерфейсы на React и Vue. js</li>

12 </ul><ul><li>Строит инфраструктуру под проекты в публичных облаках</li>

13 </ul><ul><li>9+ лет в коммерческой разработке</li>

14 </ul><ul><li>Работал в стартапах, на аутсорс и в продуктовых командах</li>

15 </ul><ul><li>Разрабатывал фронтенд, настраивал CI/CD и AWS, оптимизировал бэкенд и проводил технические собеседования</li>

16 </ul>"Траблшутеры заставляют копать внутрь k8s, это помогает быстро понять "как всё устроено под капотом“. Лучший способ научиться: сломать кластер и починить кластер, поэтому чините всё, что можно починить! В задачах вы будете разбирать реальные поломки k8s"

17 <ul><li>Опыт работы в Kubernetes - можно получить на курсе Kubernetes База</li>

18 <li>Базовые знания по Linux, сетям и Docker (или другой системе контейнеризации)</li>

19 </ul>DevOps-инженеры и системные администраторы

20 Научиться дебажить проблемы с упавшим кластером

21 Кластер работает нестабильно. Kubectl может выдавать ошибки либо отваливаться по таймауту

22 <ul><li>Работать с упавшим control-plane, когда kubectl недоступен</li>

23 </ul><ul><li>Использовать crictl для просмотра контейнеров и диагностики</li>

24 </ul><ul><li>Восстанавливать работоспособность кластера без пересоздания</li>

25 </ul><ul><li>Анализировать логи компонентов (APIi-server, etcd, controller-manager)</li>

26 </ul>Почему это важная задача при работе с Kubernetes?

27 Какую профессиональную задачу решает troubleshooter:

28 Восстановление кластера в Kubernetes. По данным<a>dsn2024uq.github.io</a>33% инцидентов в K8s связаны с misconfigurations.

29 Падение control-plane - это полная остановка продукта и потеря управления сервисами. Control-plane Kubernetes - это "мозг" кластера. Если он работает нестабильно (например, падает API-server), инженеры теряют управление всеми приложениями. Продукт полностью останавливается нельзя обслуживать заказы, принимать платежи, выпускать новые версии.

30 Научиться дебажить проблемы с kubelet

31 На какой-то ноде не создаются поды

32 <ul><li>Понимать работу kubelet и его влияние на запуск подов</li>

33 </ul><ul><li>Диагностировать проблемы на уровне ноды</li>

34 </ul><ul><li>Настраивать kubelet и применять новые конфигурации</li>

35 </ul><ul><li>Проверять распределение подов по узлам и восстанавливать баланс</li>

36 </ul>Почему это важная задача при работе с Kubernetes?

37 Какую профессиональную задачу решает troubleshooter:

38 Регулярная диагностика узлов. По данным cloudraft. io, Node-NotReady вызывает сбои в проде.

39 Нода с "мёртвым" kubelet приводит к невыполненным запросам и падению доступности. Каждая нода кластера обрабатывает часть бизнес-нагрузки: хранит поды платежных сервисов, каталогов товаров, систем уведомлений. Если kubelet на ноде работает неправильно, новые поды не запускаются, часть пользователей теряет доступ к сервису. Это прямые убытки и потеря доверия клиентов.

40 Научиться настраивать K8s scheduler для специальных случаев, когда стандартные настройки scheduler будут распределять поды не самым подходящим образом

41 Поды распределяются по нодам не самым подходящим образом

42 <ul><li>Работать с kube-scheduler и его конфигурацией</li>

43 </ul><ul><li>Настраивать affinity/anti-affinity, taints и tolerations</li>

44 </ul><ul><li>Управлять распределением подов в кластере</li>

45 </ul><ul><li>Оптимизировать использование ресурсов и повышать отказоустойчивость</li>

46 </ul>Почему это важная задача при работе с Kubernetes?

47 Какую профессиональную задачу решает troubleshooter:

48 Scheduler - мощный инструмент, но им мало кто качественно управляет. В этом задании вы можете с ним поработать.

49 Неправильный scheduling - это значит, что одни узлы перегружены, другие простаивают. А это всегда история про деньги. При высокой нагрузке (например, в "чёрную пятницу" для e-commerce) поды должны равномерно распределяться по нодам. Если scheduler этого не делает, часть узлов перегружается, сервис замедляется или падает. Бизнес теряет заказы именно в пиковый момент, когда доход должен быть максимальным.

50 Проверить понимание работы PriorityClass и ResourceQuota, а так же использование SecurityContext

51 Не работает scheduling подов с critical-priority, не стартуют поды set-time

52 <ul><li>Работать с PriorityClass и механизмом preemption</li>

53 </ul><ul><li>Настраивать ResourceQuota для ограничения ресурсов</li>

54 </ul><ul><li>Применять SecurityContext без избыточных привилегий</li>

55 </ul><ul><li>Гарантировать запуск критичных сервисов даже в условиях дефицита ресурсов</li>

56 </ul>Почему это важная задача при работе с Kubernetes?

57 Какую профессиональную задачу решает troubleshooter:

58 Помогает реализовать security, выстроить SLA и бизнес-приоритеты. По<a>данным Squadcast</a>, SRE-метрики показывают рост MTTR и burnout без правильного приоритета по данным платформы.

59 Если критичные поды не запускаются, то падают ключевые бизнес-функции:

60 <ul><li>платёжный сервис - без него теряется прибыль;</li>

61 <li>аутентификация - пользователи не могут войти в продукт;</li>

62 <li>API Gateway - без него недоступны все остальные сервисы.</li>

63 </ul>Если такие поды не стартуют из-за лимитов ресурсов или неправильных настроек, бизнес теряет ключевые функции.

64 Научиться работать с сетевыми политиками (NetworkPolicy)

65 Вам предоставлен кластер с четырьмя воркер-нодами, распределёнными по разным зонам доступности. Для этого на всех нодах есть label region с конкретным значением (west, east, south, north). В качестве CNI используется Calico, а для управления конфигурацией на masternode вам доступен calicoctl. Но вот незадача: не всё работает, не все поды запускаются…

66 <ul><li>Настраивать сетевые политики (NetworkPolicy)</li>

67 </ul><ul><li>Работать с Calico для управления CNI-конфигурацией</li>

68 </ul><ul><li>Диагностировать и устранять неисправности в сетевом взаимодействии между зонами доступности (multi-AZ) в кластере Kubernetes</li>

69 </ul>Почему это важная задача при работе с Kubernetes?

70 Какую профессиональную задачу решает troubleshooter:

71 Настраивать и восстанавливать сетевое взаимодействие между сервисами и зонами доступности в распределённом кластере, обеспечивая связность, отказоустойчивость и безопасность сетевых коммуникаций.

72 Сетевое взаимодействие - одна из самых сложных и критически важных частей Kubernetes. Ошибки в CNI или NetworkPolicy приводят к изоляции сервисов и полной недоступности части инфраструктуры. Управление сетевыми зависимостями и безопасное устранение проблем гарантируют высокую доступность (HA) и выполнение SLA. По данным Cloud Native Survey, 28% критичных инцидентов в Kubernetes связаны именно с сетевыми ошибками.

73 Научиться диагностировать ошибки в манифестах, устранять проблемы с доступом к секретам и обеспечивать запуск приложений без нарушения политик безопасности Kyverno и принципов non-root работы.

74 <ul><li>Возникла проблема, поды не запускаются</li>

75 <li>Что-то настроили некорректно и nginx не стартует</li>

76 </ul><ul><li>Проверять корректность манифестов с помощью Kyverno</li>

77 </ul><ul><li>Работать с Vault и Vault Agent Injector для безопасной передачи секретов</li>

78 </ul><ul><li>Настраивать доступ приложений к секретам без нарушения принципа наименьших привилегий</li>

79 </ul><ul><li>Исправлять ошибки в деплойментах, сохраняя их соответствие политике безопасности</li>

80 </ul>Почему это важная задача при работе с Kubernetes?

81 Какую профессиональную задачу решает troubleshooter:

82 Проверять и исправить ошибки конфигурации манифестов, интегрировать Vault для безопасной работы с секретами и обеспечивать выполнение политик безопасности при деплое приложений.

83 Ошибки в конфигурации манифестов и управлении секретами - основная причина утечек данных и падений сервисов. Правильная валидация YAML-файлов и безопасное использование Vault гарантируют устойчивость кластера и соблюдение DevSecOps-стандартов. По<a>данным Red Hat State of Kubernetes Security Report 2024</a>, значительная часть инцидентов безопасности в Kubernetes связана с некорректным хранением секретов.

84 <ul><li>№4 Не работает scheduling подов с critical-priority, не стартуют поды set-time - проверка понимания работы PriorityClass и ResourceQuota, использование SecurityContext.</li>

85 </ul><ul><li>№5 Сломанные сетевые политики и конфликты</li>

86 </ul><ul><li>№6 Валидация манифестов и хранение секретов</li>

87 </ul><ul><li>№ 1 Нестабильный кластер - дебаг упавшего кластера</li>

88 </ul><ul><li>№2 Нестабильный kubelet - дебаг проблем с kubelet</li>

89 </ul><ul><li>№3 Неравномерное распределение подов - тонкая настройка k8s scheduler, когда стандартные настройки scheduler будут распределять поды не самым подходящим образом</li>

90 </ul>Именное свидетельство о прохождении курса получает студент, если:

91 <ul><li>изучил 80% курса</li>

92 </ul><ul><li>принимал участие в решении практик, которые входят в курс</li>

93 </ul><ul><li>успешно сдал итоговый проект</li>

94 </ul>Если вы считаете, что знания, полученные на курсе, могут быть полезными на вашем текущем месте работы, оставляйте заявку с контактами компании в форме ниже или обсудите покупку курса с вашим руководителем. Как это организовать, что говорить и куда идти -<a>написали здесь.</a>

95 Если ваша задача - обучить больше 30 сотрудников, мы готовы предложить вашей компании корпоративный формат обучения или адаптировать обучение под вас

96 Пример корпоративного обучения по Kubernetes для сотрудников Тинькофф банка →