HTML Diff
1 added 1 removed
Original 2026-01-01
Modified 2026-03-10
1 - <p><strong>Hadoop</strong>представляет собой свободно распространяемый фреймворк, а также набор утилит и библиотек. Он используется при разработке и выполнении распределённых программ, функционирующих на кластерах из множества узлов (сотен и даже тысяч). По сути, речь идё о технологиях, предназначенных для хранения и обработки больших данных.</p>
1 + <p><strong>Hadoop</strong>представляет собой свободно распространяемый фреймворк, а также набор утилит и библиотек. Он используется при разработке и выполнении распределённых программ, функционирующих на кластерах из множества узлов (сотен и даже тысяч). По сути, речь идёт о технологиях, предназначенных для хранения и обработки больших данных.</p>
2 <h2>Из чего состоит Hadoop?</h2>
2 <h2>Из чего состоит Hadoop?</h2>
3 <p>Проект разрабатывался на Java с учётом вычислительной парадигмы<strong>MapReduce</strong>(приложение делится на множество одинаковых элементарных заданий, выполняемых на распределённых компьютерах (нодах) кластера и сводимых в единый результат).</p>
3 <p>Проект разрабатывался на Java с учётом вычислительной парадигмы<strong>MapReduce</strong>(приложение делится на множество одинаковых элементарных заданий, выполняемых на распределённых компьютерах (нодах) кластера и сводимых в единый результат).</p>
4 <p><strong>Архитектурная концепция Hadoop</strong>предполагает наличие четырёх модулей: 1.<strong>Hadoop Common</strong>- комплект инфраструктурных программных библиотек и утилит, используемых в других решениях и родственных проектах, в том числе и для управления распределёнными файлами, а также для создания нужной инфраструктуры. 2.<strong>HDFS</strong>(Hadoop Distributed File System) - распределённая файловая система. Это технология хранения файлов на разных серверах данных (узлах, DataNodes), причём их адреса располагаются на специальном сервере имён (мастере, NameNode). Благодаря репликации информационных блоков, HDFS-система обеспечивает надёжное хранение файлов больших размеров. Файлы распределены между узлами вычислительного кластера поблочно. 3.<strong>YARN</strong>(Yet Another Resource Negotiator) - система планирования заданий и управления кластером, называемая ещё MapReduce 2.0 (MRv2). Эта система представляет собой набор системных программ (демонов), которые обеспечивают совместное применение, масштабирование и надёжность работы распределённых приложений. По сути, YARN - это интерфейс между аппаратными ресурсами кластера и приложениями. 4.<strong>Hadoop MapReduce</strong>- платформа программирования и осуществления распределённых MapReduce-вычислений с применением большого количества компьютеров (nodes, узлов), которые образуют кластер.</p>
4 <p><strong>Архитектурная концепция Hadoop</strong>предполагает наличие четырёх модулей: 1.<strong>Hadoop Common</strong>- комплект инфраструктурных программных библиотек и утилит, используемых в других решениях и родственных проектах, в том числе и для управления распределёнными файлами, а также для создания нужной инфраструктуры. 2.<strong>HDFS</strong>(Hadoop Distributed File System) - распределённая файловая система. Это технология хранения файлов на разных серверах данных (узлах, DataNodes), причём их адреса располагаются на специальном сервере имён (мастере, NameNode). Благодаря репликации информационных блоков, HDFS-система обеспечивает надёжное хранение файлов больших размеров. Файлы распределены между узлами вычислительного кластера поблочно. 3.<strong>YARN</strong>(Yet Another Resource Negotiator) - система планирования заданий и управления кластером, называемая ещё MapReduce 2.0 (MRv2). Эта система представляет собой набор системных программ (демонов), которые обеспечивают совместное применение, масштабирование и надёжность работы распределённых приложений. По сути, YARN - это интерфейс между аппаратными ресурсами кластера и приложениями. 4.<strong>Hadoop MapReduce</strong>- платформа программирования и осуществления распределённых MapReduce-вычислений с применением большого количества компьютеров (nodes, узлов), которые образуют кластер.</p>
5 <p><strong>Некоторые инструменты Hadoop</strong>: • HBase - NoSQL СУБД, которая эффективно поддерживает случайное чтение и запись; • Pig - среда выполнения и язык обработки; • SPARK - перечень инструментов по реализации распределённых вычислений; • Hive - хранилище данных с SQL-интерфейсом; • ZooKeeper - хранилище конфигурационной информации и прочие.</p>
5 <p><strong>Некоторые инструменты Hadoop</strong>: • HBase - NoSQL СУБД, которая эффективно поддерживает случайное чтение и запись; • Pig - среда выполнения и язык обработки; • SPARK - перечень инструментов по реализации распределённых вычислений; • Hive - хранилище данных с SQL-интерфейсом; • ZooKeeper - хранилище конфигурационной информации и прочие.</p>
6 <p>Разнообразие в экосистеме Hadoop делает "слонёнка" универсальным инструментом, изменяющимся с течением времени. При этом в настоящее время<strong>вокруг Hadoop сформировалась целая экосистема технологий и связанных проектов</strong>, используемых для интеллектуального анализа больших данных (Data Mining), в том числе и посредством машинного обучения (Machine Learning).</p>
6 <p>Разнообразие в экосистеме Hadoop делает "слонёнка" универсальным инструментом, изменяющимся с течением времени. При этом в настоящее время<strong>вокруг Hadoop сформировалась целая экосистема технологий и связанных проектов</strong>, используемых для интеллектуального анализа больших данных (Data Mining), в том числе и посредством машинного обучения (Machine Learning).</p>
7 <h2>Кем и где используется Hadoop?</h2>
7 <h2>Кем и где используется Hadoop?</h2>
8 <p>Hadoop используют разные компании, включая крупные и хорошо известные: eBay, Facebook, Amazon, IBM, AliExpress, Yahoo! и пр. При этом не существует единой схемы работы с данными для любой компании, так как работа всех сервисов специфична. Также на основную функциональность накладываются дополнительные фичи, которые специально разработаны для конкретных компаний.</p>
8 <p>Hadoop используют разные компании, включая крупные и хорошо известные: eBay, Facebook, Amazon, IBM, AliExpress, Yahoo! и пр. При этом не существует единой схемы работы с данными для любой компании, так как работа всех сервисов специфична. Также на основную функциональность накладываются дополнительные фичи, которые специально разработаны для конкретных компаний.</p>
9 <p><strong>Основные области применения Hadoop</strong>: • контекстные и поисковые механизмы высоконагруженных интернет-магазинов и web-сайтов; • хранение и сортировка больших объёмов данных, разбор содержимого огромных файлов; • быстрая обработка графических данных.</p>
9 <p><strong>Основные области применения Hadoop</strong>: • контекстные и поисковые механизмы высоконагруженных интернет-магазинов и web-сайтов; • хранение и сортировка больших объёмов данных, разбор содержимого огромных файлов; • быстрая обработка графических данных.</p>
10 <p><em>Если интересуют подробности об этой экосистеме, добро пожаловать на<a>наш курс</a>! Он рассчитан на Data-инженеров, которые желают поглубже изучить Spark, Hadoop, Hive.</em></p>
10 <p><em>Если интересуют подробности об этой экосистеме, добро пожаловать на<a>наш курс</a>! Он рассчитан на Data-инженеров, которые желают поглубже изучить Spark, Hadoop, Hive.</em></p>
11 <p>Источники: • https://ru.wikipedia.org/wiki/Hadoop; • https://m.habr.com/ru/post/240405/; • https://www.ibm.com/developerworks/ru/library/bd-hadoopyarn/index.html; • https://www.ibm.com/developerworks/ru/library/l-hadoop/index.html.</p>
11 <p>Источники: • https://ru.wikipedia.org/wiki/Hadoop; • https://m.habr.com/ru/post/240405/; • https://www.ibm.com/developerworks/ru/library/bd-hadoopyarn/index.html; • https://www.ibm.com/developerworks/ru/library/l-hadoop/index.html.</p>
12  
12