0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Мы уже вкратце<a>рассказывали</a>об архитектуре Hadoop, и о том, что основными компонентами этой экосистемы являются HDFS и MapReduce. В этой статье поговорим о принципах работы Hadoop.</p>
1
<p>Мы уже вкратце<a>рассказывали</a>об архитектуре Hadoop, и о том, что основными компонентами этой экосистемы являются HDFS и MapReduce. В этой статье поговорим о принципах работы Hadoop.</p>
2
<h2>Принцип № 1: горизонтальное масштабирование</h2>
2
<h2>Принцип № 1: горизонтальное масштабирование</h2>
3
<p>Давайте представим, что в кластере возникли неполадки, и нам не хватает ресурсов имеющихся серверов. Существуют 2 модели поведения: 1. Выполнить апгрейд уже имеющегося железа либо заменить его - это всем известное<strong>вертикальное масштабирование</strong>. 2. Дополнить имеющийся комплект серверов более новыми устройствами - это, соответственно,<strong>горизонтальное масштабирование</strong>.</p>
3
<p>Давайте представим, что в кластере возникли неполадки, и нам не хватает ресурсов имеющихся серверов. Существуют 2 модели поведения: 1. Выполнить апгрейд уже имеющегося железа либо заменить его - это всем известное<strong>вертикальное масштабирование</strong>. 2. Дополнить имеющийся комплект серверов более новыми устройствами - это, соответственно,<strong>горизонтальное масштабирование</strong>.</p>
4
<p>Экосистема Hadoop заточена под вариант номер 2. Почему? Ответ прост - в случае горизонтального масштабирования ресурсы кластера почти не ограничены, а расширять его можно, по сути, бесконечно.</p>
4
<p>Экосистема Hadoop заточена под вариант номер 2. Почему? Ответ прост - в случае горизонтального масштабирования ресурсы кластера почти не ограничены, а расширять его можно, по сути, бесконечно.</p>
5
<h2>Принцип № 2: код отправляется к данным, а не наоборот</h2>
5
<h2>Принцип № 2: код отправляется к данным, а не наоборот</h2>
6
<p>Существует подход, когда для хранения и обработки данных выделяются сервера. Во время работы с большими объёмами данных приходится их передавать между этими серверами. Решение является непростым, энергозатратным, да и, чего уж там скрывать, дорогим.</p>
6
<p>Существует подход, когда для хранения и обработки данных выделяются сервера. Во время работы с большими объёмами данных приходится их передавать между этими серверами. Решение является непростым, энергозатратным, да и, чего уж там скрывать, дорогим.</p>
7
<p>В случае с Hadoop все происходит более эффективно: если надо выполнить обработку данных, мы не осуществляем их физический перенос на обрабатывающий сервер, а лишь копируем нужную часть кода, перенося этот код к данным. Итог - система становится "легче" и функционирует быстрее.</p>
7
<p>В случае с Hadoop все происходит более эффективно: если надо выполнить обработку данных, мы не осуществляем их физический перенос на обрабатывающий сервер, а лишь копируем нужную часть кода, перенося этот код к данным. Итог - система становится "легче" и функционирует быстрее.</p>
8
<h2>Принцип № 3: отказоустойчивость</h2>
8
<h2>Принцип № 3: отказоустойчивость</h2>
9
<p>Экосистема Hadoop учитывает вероятность отказа железа и нивелирует эту вероятность следующими механизмами: 1.<strong>Репликацией данных</strong>. Речь идёт о восстановлении утерянной части данных. 2.<strong>Перезапуском тасков</strong>. Это механизм, запоминающий таски, а также регулярно проверяющий и обновляющий их.</p>
9
<p>Экосистема Hadoop учитывает вероятность отказа железа и нивелирует эту вероятность следующими механизмами: 1.<strong>Репликацией данных</strong>. Речь идёт о восстановлении утерянной части данных. 2.<strong>Перезапуском тасков</strong>. Это механизм, запоминающий таски, а также регулярно проверяющий и обновляющий их.</p>
10
<p>Таким образом, исходя из вышеописанных трёх принципов, можно сформулировать одно из основных достоинств экосистемы Hadoop:<em>кластер машин может состоять из самых обыкновенных серверов, к которым не предъявляются чрезмерные запросы в плане отказоустойчивости</em>.</p>
10
<p>Таким образом, исходя из вышеописанных трёх принципов, можно сформулировать одно из основных достоинств экосистемы Hadoop:<em>кластер машин может состоять из самых обыкновенных серверов, к которым не предъявляются чрезмерные запросы в плане отказоустойчивости</em>.</p>
11
<h2>Принцип № 4: инкапсуляция сложности реализации</h2>
11
<h2>Принцип № 4: инкапсуляция сложности реализации</h2>
12
<p>Если в двух словах, то это значит, что пользователь лишь продумывает, как именно он желает обрабатывать данные, больше фокусируясь при этом на бизнес-логике процесса, а не на программной части. Профит такого подхода очевиден.</p>
12
<p>Если в двух словах, то это значит, что пользователь лишь продумывает, как именно он желает обрабатывать данные, больше фокусируясь при этом на бизнес-логике процесса, а не на программной части. Профит такого подхода очевиден.</p>
13
<h2>Кто изучает Hadoop?</h2>
13
<h2>Кто изучает Hadoop?</h2>
14
<p>В основном, знание экосистемы пригодится специалистам, работающим с BigData. Это и аналитики, и разработчики. Если говорить о конкретных сферах, то это, как правило, банки, IT-компании и крупные сервисы с большой клиентской базой.</p>
14
<p>В основном, знание экосистемы пригодится специалистам, работающим с BigData. Это и аналитики, и разработчики. Если говорить о конкретных сферах, то это, как правило, банки, IT-компании и крупные сервисы с большой клиентской базой.</p>
15
<p><em><a>Источник</a></em></p>
15
<p><em><a>Источник</a></em></p>
16
16