0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: шаблоны, hadoop mcs, компоновка кластеров</p>
1
<p>Теги: шаблоны, hadoop mcs, компоновка кластеров</p>
2
<p>Для удобства развертывания и использования сервиса<strong>Hadoop MCS</strong>(Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:</p>
2
<p>Для удобства развертывания и использования сервиса<strong>Hadoop MCS</strong>(Mail.Ru Cloud Solutions) пользователям предоставляется ряд предварительно настроенных шаблонов. Давайте посмотрим, о каких шаблонах идет речь:</p>
3
<ol><li><strong>Airflow</strong>. Набор библиотек, предназначенных для мониторинга и запуска задач, которые написаны на Python. Такие задачи должны обладать структурой направленного ацикличного графа. На кластере Airflow сразу настраивается на запуск задач на рабочих узлах - пользователю лишь надо самому разложить по узлам код задач. Кроме этого, Airflow можно также инсталлировать как компонент на кластерах Hadoop и Spark.</li>
3
<ol><li><strong>Airflow</strong>. Набор библиотек, предназначенных для мониторинга и запуска задач, которые написаны на Python. Такие задачи должны обладать структурой направленного ацикличного графа. На кластере Airflow сразу настраивается на запуск задач на рабочих узлах - пользователю лишь надо самому разложить по узлам код задач. Кроме этого, Airflow можно также инсталлировать как компонент на кластерах Hadoop и Spark.</li>
4
<li><strong>Airflow-HDP-v31</strong>. Данный шаблон имеет лишь установленный компонент Airflow.</li>
4
<li><strong>Airflow-HDP-v31</strong>. Данный шаблон имеет лишь установленный компонент Airflow.</li>
5
<li><strong>Hadoop</strong>. Компоновка, обеспечивающая решение широкого спектра задач по обработке Big Data посредством технологии<strong>MapReduce</strong>. Предлагаемый шаблон, кстати, ориентирован на batch-обработку данных (пакетную обработку), когда допустимое время ожидания результата - 10 и более минут.</li>
5
<li><strong>Hadoop</strong>. Компоновка, обеспечивающая решение широкого спектра задач по обработке Big Data посредством технологии<strong>MapReduce</strong>. Предлагаемый шаблон, кстати, ориентирован на batch-обработку данных (пакетную обработку), когда допустимое время ожидания результата - 10 и более минут.</li>
6
<li><strong>Hadoop-HDP-v31</strong>. Это минимальная компоновка компонентов, необходимых для получения кластера Hadoop. Данный кластер может применять как HDFS-хранилище или же в целях запуска MapReduce-задач. Включены такие компоненты, как HDFS, YARN, MapReduce, Hive, ZooKeeper.</li>
6
<li><strong>Hadoop-HDP-v31</strong>. Это минимальная компоновка компонентов, необходимых для получения кластера Hadoop. Данный кластер может применять как HDFS-хранилище или же в целях запуска MapReduce-задач. Включены такие компоненты, как HDFS, YARN, MapReduce, Hive, ZooKeeper.</li>
7
<li><strong>Spark</strong>. Это компоновка, предназначенная для параллельной обработки Big Data в памяти. Данный шаблон ориентирован на быструю обработку данных, причем в режиме, максимально приближенном к реальному времени.</li>
7
<li><strong>Spark</strong>. Это компоновка, предназначенная для параллельной обработки Big Data в памяти. Данный шаблон ориентирован на быструю обработку данных, причем в режиме, максимально приближенном к реальному времени.</li>
8
<li><strong>Spark-HDP-v31</strong>. Это уже расширенная компоновка компонентов. Здесь дополнительно к Hadoop доступны Sqoop, Livy2, HBase, Spark, Oozie, Jupyter.<strong>Spark</strong>- инструмент обработки и хранения данных из условно 2-го поколения экосистемы Hadoop. Развитое профессиональное сообщество и большое число расширений и пользовательских возможностей сделали Spark, пожалуй, одним из наиболее популярных инструментов по обработке больших данных.</li>
8
<li><strong>Spark-HDP-v31</strong>. Это уже расширенная компоновка компонентов. Здесь дополнительно к Hadoop доступны Sqoop, Livy2, HBase, Spark, Oozie, Jupyter.<strong>Spark</strong>- инструмент обработки и хранения данных из условно 2-го поколения экосистемы Hadoop. Развитое профессиональное сообщество и большое число расширений и пользовательских возможностей сделали Spark, пожалуй, одним из наиболее популярных инструментов по обработке больших данных.</li>
9
<li><strong>DataFlow-HDF-v34</strong>. Шаблон кластера, который основан на Hortonworks Data Flow. Данный кластер выполняет 2 важные задачи: потоковый процессинг (аналитика) и управление потоками данных. После первичной инсталляции управление производится с помощью консоли Ambari.</li>
9
<li><strong>DataFlow-HDF-v34</strong>. Шаблон кластера, который основан на Hortonworks Data Flow. Данный кластер выполняет 2 важные задачи: потоковый процессинг (аналитика) и управление потоками данных. После первичной инсталляции управление производится с помощью консоли Ambari.</li>
10
</ol><p><em>Подробности читайте в официальной документации<a>Hadoop MCS</a>.</em></p>
10
</ol><p><em>Подробности читайте в официальной документации<a>Hadoop MCS</a>.</em></p>
11
11