Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: шаблоны, hadoop mcs, компоновка кластеров

2 Для удобства развертывания и использования сервисаHadoop MCS(Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:

3 <ol><li>Airflow. Набор библиотек, предназначенных для мониторинга и запуска задач, которые написаны на Python. Такие задачи должны обладать структурой направленного ацикличного графа. На кластере Airflow сразу настраивается на запуск задач на рабочих узлах - пользователю лишь надо самому разложить по узлам код задач. Кроме этого, Airflow можно также инсталлировать как компонент на кластерах Hadoop и Spark.</li>

4 <li>Airflow-HDP-v31. Данный шаблон имеет лишь установленный компонент Airflow.</li>

5 <li>Hadoop. Компоновка, обеспечивающая решение широкого спектра задач по обработке Big Data посредством технологииMapReduce. Предлагаемый шаблон, кстати, ориентирован на batch-обработку данных (пакетную обработку), когда допустимое время ожидания результата - 10 и более минут.</li>

6 <li>Hadoop-HDP-v31. Это минимальная компоновка компонентов, необходимых для получения кластера Hadoop. Данный кластер может применять как HDFS-хранилище или же в целях запуска MapReduce-задач. Включены такие компоненты, как HDFS, YARN, MapReduce, Hive, ZooKeeper.</li>

7 <li>Spark. Это компоновка, предназначенная для параллельной обработки Big Data в памяти. Данный шаблон ориентирован на быструю обработку данных, причем в режиме, максимально приближенном к реальному времени.</li>

8 <li>Spark-HDP-v31. Это уже расширенная компоновка компонентов. Здесь дополнительно к Hadoop доступны Sqoop, Livy2, HBase, Spark, Oozie, Jupyter.Spark- инструмент обработки и хранения данных из условно 2-го поколения экосистемы Hadoop. Развитое профессиональное сообщество и большое число расширений и пользовательских возможностей сделали Spark, пожалуй, одним из наиболее популярных инструментов по обработке больших данных.</li>

9 <li>DataFlow-HDF-v34. Шаблон кластера, который основан на Hortonworks Data Flow. Данный кластер выполняет 2 важные задачи: потоковый процессинг (аналитика) и управление потоками данных. После первичной инсталляции управление производится с помощью консоли Ambari.</li>

10 </ol>Подробности читайте в официальной документации<a>Hadoop MCS</a>.