Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 <p>Мы уже вкратце<a>рассказывали</a>об архитектуре Hadoop, и о том, что основными компонентами этой экосистемы являются HDFS и MapReduce. В этой статье поговорим о принципах работы Hadoop.</p>

2 <h2>Принцип № 1: горизонтальное масштабирование</h2>

3 <p>Давайте представим, что в кластере возникли неполадки, и нам не хватает ресурсов имеющихся серверов. Существуют 2 модели поведения: 1. Выполнить апгрейд уже имеющегося железа либо заменить его - это всем известное<strong>вертикальное масштабирование</strong>. 2. Дополнить имеющийся комплект серверов более новыми устройствами - это, соответственно,<strong>горизонтальное масштабирование</strong>.</p>

4 <p>Экосистема Hadoop заточена под вариант номер 2. Почему? Ответ прост - в случае горизонтального масштабирования ресурсы кластера почти не ограничены, а расширять его можно, по сути, бесконечно.</p>

5 <h2>Принцип № 2: код отправляется к данным, а не наоборот</h2>

6 <p>Существует подход, когда для хранения и обработки данных выделяются сервера. Во время работы с большими объёмами данных приходится их передавать между этими серверами. Решение является непростым, энергозатратным, да и, чего уж там скрывать, дорогим.</p>

7 <p>В случае с Hadoop все происходит более эффективно: если надо выполнить обработку данных, мы не осуществляем их физический перенос на обрабатывающий сервер, а лишь копируем нужную часть кода, перенося этот код к данным. Итог - система становится "легче" и функционирует быстрее.</p>

8 <h2>Принцип № 3: отказоустойчивость</h2>

9 <p>Экосистема Hadoop учитывает вероятность отказа железа и нивелирует эту вероятность следующими механизмами: 1.<strong>Репликацией данных</strong>. Речь идёт о восстановлении утерянной части данных. 2.<strong>Перезапуском тасков</strong>. Это механизм, запоминающий таски, а также регулярно проверяющий и обновляющий их.</p>

10 <p>Таким образом, исходя из вышеописанных трёх принципов, можно сформулировать одно из основных достоинств экосистемы Hadoop:<em>кластер машин может состоять из самых обыкновенных серверов, к которым не предъявляются чрезмерные запросы в плане отказоустойчивости</em>.</p>

11 <h2>Принцип № 4: инкапсуляция сложности реализации</h2>

12 <p>Если в двух словах, то это значит, что пользователь лишь продумывает, как именно он желает обрабатывать данные, больше фокусируясь при этом на бизнес-логике процесса, а не на программной части. Профит такого подхода очевиден.</p>

13 <h2>Кто изучает Hadoop?</h2>

14 <p>В основном, знание экосистемы пригодится специалистам, работающим с BigData. Это и аналитики, и разработчики. Если говорить о конкретных сферах, то это, как правило, банки, IT-компании и крупные сервисы с большой клиентской базой.</p>

15 <p><em><a>Источник</a></em></p>