Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Как известно, запускать Spark в Kubernetes можно уже, начиная с версии 2.3, которая была выпущена в 2018 году. При этом до недавнего времени эта возможность была, скажем так, универсальной. Теперь все изменилось.

2 Произошло это с выходом версииSpark 3.1.1, где эту возможность наконец-то довели доproduction-ready. Что это значит на практике? Да хотя бы то, что Spark теперь абсолютно готов к запуску в Kubernetes. Сделать это можно двумя способами.

3 <h2>Способ № раз</h2>

4 ЭтоSpark-submit, он же Spark-Native путь. Применяя spark-submit, вы задаете, как и обычно, все параметры, причем в роли менеджера ресурсов указываете Kubernetes. В результате в момент spark-submit внутри Kuber’а создастся под, причем на нем сначала будет размещен Driver. Потом этот Driver напрямую взаимодействует с API Kubernetes и создает Executor по указанным вами параметрам. При этом сам по себе Kubernetes не будет "знать и понимать", что внутри него функционирует именно Spark, - для Kubernetes это будет всего лишь очередное приложение. Как то так.

5 <h2>Способ № два</h2>

6 Kubernetes Operator for Spark, представляющий собой Kubernetes-Native путь. В данном случае Kubernetes уже "понимает", что внутри функционирует Spark. Мало того, при такой реализации вы получите более удобный доступ: - к логам; - статусу приложения; - текущему состоянию Job.

7 Пожалуй, второй способ - это то, что стоит порекомендовать в первую очередь, уж простите за каламбур.

8 По материалам https://mcs.mail.ru/blog/.