0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p><a>#статьи</a></p>
1
<p><a>#статьи</a></p>
2
<ul><li>15 авг 2023</li>
2
<ul><li>15 авг 2023</li>
3
<li>0</li>
3
<li>0</li>
4
</ul><p>Как устроена платформа для работы с большими данными: основные компоненты и преимущества.</p>
4
</ul><p>Как устроена платформа для работы с большими данными: основные компоненты и преимущества.</p>
5
<p>Иллюстрация: Imgix / Andrew Charney / Unsplash / Annie для Skillbox Media</p>
5
<p>Иллюстрация: Imgix / Andrew Charney / Unsplash / Annie для Skillbox Media</p>
6
<p>Редактор в IT. Пишет про виртуализацию и облачные технологии.</p>
6
<p>Редактор в IT. Пишет про виртуализацию и облачные технологии.</p>
7
<p>Работать с большими данными на одном компьютере не получится - необходима распределённая инфраструктура для их хранения и параллельной обработки. Иначе анализ может занять несколько дней или даже недель.</p>
7
<p>Работать с большими данными на одном компьютере не получится - необходима распределённая инфраструктура для их хранения и параллельной обработки. Иначе анализ может занять несколько дней или даже недель.</p>
8
<p>Одним из подобных инструментов является Apache Hadoop - платформа с открытым исходным кодом, позволяющая распределять данные для анализа по кластеру компьютеров.</p>
8
<p>Одним из подобных инструментов является Apache Hadoop - платформа с открытым исходным кодом, позволяющая распределять данные для анализа по кластеру компьютеров.</p>
9
<p>Эксперт Skillbox. Дипломированный специалист Cisco, автор статей о машинном зрении и математической обработке изображений. Более семи лет обучает студентов по всему миру. Ведёт телеграм-канал "<a>Кудрявый микрофон</a>".</p>
9
<p>Эксперт Skillbox. Дипломированный специалист Cisco, автор статей о машинном зрении и математической обработке изображений. Более семи лет обучает студентов по всему миру. Ведёт телеграм-канал "<a>Кудрявый микрофон</a>".</p>
10
<p>В статье подробно расскажем о Hadoop.</p>
10
<p>В статье подробно расскажем о Hadoop.</p>
11
<ul><li><a>Как появилась экосистема</a></li>
11
<ul><li><a>Как появилась экосистема</a></li>
12
<li><a>Что она собой представляет</a></li>
12
<li><a>Что она собой представляет</a></li>
13
<li><a>Основные компоненты платформы</a></li>
13
<li><a>Основные компоненты платформы</a></li>
14
<li><a>Как она работает</a></li>
14
<li><a>Как она работает</a></li>
15
<li><a>Для чего её используют</a></li>
15
<li><a>Для чего её используют</a></li>
16
<li><a>Почему её выбирают</a></li>
16
<li><a>Почему её выбирают</a></li>
17
<li><a>Перспективы экосистемы</a></li>
17
<li><a>Перспективы экосистемы</a></li>
18
</ul><p>Дуг Каттинг сделал первые шаги к созданию Hadoop в 2005 году, когда начал работать над созданием программной инфраструктуры распределённых вычислений для проекта Nutch. Это была поисковая машина на Java, работающая на основе вычислительной концепции MapReduce. Позднее MapReduce легла в фундамент Hadoop.</p>
18
</ul><p>Дуг Каттинг сделал первые шаги к созданию Hadoop в 2005 году, когда начал работать над созданием программной инфраструктуры распределённых вычислений для проекта Nutch. Это была поисковая машина на Java, работающая на основе вычислительной концепции MapReduce. Позднее MapReduce легла в фундамент Hadoop.</p>
19
<p>В 2006 году компания Yahoo предложила Каттингу стать руководителем выделенной команды разработки инфраструктуры распределённых вычислений. Именно в этот момент Hadoop получила название - в честь игрушечного слоника основателя проекта.</p>
19
<p>В 2006 году компания Yahoo предложила Каттингу стать руководителем выделенной команды разработки инфраструктуры распределённых вычислений. Именно в этот момент Hadoop получила название - в честь игрушечного слоника основателя проекта.</p>
20
<p>Уже в 2008 году на базе технологии Hadoop в Yahoo запустили поисковую машину. Так новый инструмент стал верхнеуровневым проектом системы Apache Software Foundation. Почти сразу им заинтересовались крупные компании - "Фейсбук"*, Last.fm, The New York Times и другие. Случилось это после того, как Hadoop побила мировой рекорд производительности в стандартизированном бенчмарке сортировки данных - 1 терабайт был обработан за 209 секунд. Рекорд был поставлен на кластере из 910 узлов.</p>
20
<p>Уже в 2008 году на базе технологии Hadoop в Yahoo запустили поисковую машину. Так новый инструмент стал верхнеуровневым проектом системы Apache Software Foundation. Почти сразу им заинтересовались крупные компании - "Фейсбук"*, Last.fm, The New York Times и другие. Случилось это после того, как Hadoop побила мировой рекорд производительности в стандартизированном бенчмарке сортировки данных - 1 терабайт был обработан за 209 секунд. Рекорд был поставлен на кластере из 910 узлов.</p>
21
<p>После этого Hadoop продолжила развиваться. Для неё появлялись новые модули и технологии, дополняющие функциональность и повышающие скорость работы с данными. При этом разработкой новых инструментов занимались и сторонние разработчики. В итоге получилась современная Hadoop - целая экосистема, включающая несколько десятков подходов для управления и работы с данными.</p>
21
<p>После этого Hadoop продолжила развиваться. Для неё появлялись новые модули и технологии, дополняющие функциональность и повышающие скорость работы с данными. При этом разработкой новых инструментов занимались и сторонние разработчики. В итоге получилась современная Hadoop - целая экосистема, включающая несколько десятков подходов для управления и работы с данными.</p>
22
<p>Apache Hadoop - написанная на языке Java платформа с открытым исходным кодом для распределённого хранения и обработки больших и не связанных между собой данных. Звучит сложно, но сейчас разберёмся.</p>
22
<p>Apache Hadoop - написанная на языке Java платформа с открытым исходным кодом для распределённого хранения и обработки больших и не связанных между собой данных. Звучит сложно, но сейчас разберёмся.</p>
23
<p>Под большими данными подразумеваются те, что отличаются разнообразием, высокой скоростью поступления и постоянно растущим объёмом, который не позволяет разместить их и обработать на одном компьютере. Важно сказать, что в само определение "большие данные" входит не только информация, но и методы работы с ней - от хранения до анализа.</p>
23
<p>Под большими данными подразумеваются те, что отличаются разнообразием, высокой скоростью поступления и постоянно растущим объёмом, который не позволяет разместить их и обработать на одном компьютере. Важно сказать, что в само определение "большие данные" входит не только информация, но и методы работы с ней - от хранения до анализа.</p>
24
<p>Hadoop позволяет разделить данные объёмом в несколько терабайт или петабайт на небольшие фрагменты и распределить их по вычислительному кластеру - группе компьютеров, которые представляют собой аппаратный ресурс, выполняющий работу как единое целое.</p>
24
<p>Hadoop позволяет разделить данные объёмом в несколько терабайт или петабайт на небольшие фрагменты и распределить их по вычислительному кластеру - группе компьютеров, которые представляют собой аппаратный ресурс, выполняющий работу как единое целое.</p>
25
<p>Таким образом, задача аналитической обработки данных разделяется между несколькими рабочими машинами, параллельно выполняющими свои небольшие части общей работы. Таких машин может быть от одной до нескольких тысяч.</p>
25
<p>Таким образом, задача аналитической обработки данных разделяется между несколькими рабочими машинами, параллельно выполняющими свои небольшие части общей работы. Таких машин может быть от одной до нескольких тысяч.</p>
26
<p>Экосистема состоит из четырёх ключевых компонентов: HDFS, YARN, MapReduce и Common. В дополнение к ним выпущено несколько десятков инструментов, используемых для расширения функциональности платформы. Подробнее с ними можно<a>познакомиться в документации к платформе</a>.</p>
26
<p>Экосистема состоит из четырёх ключевых компонентов: HDFS, YARN, MapReduce и Common. В дополнение к ним выпущено несколько десятков инструментов, используемых для расширения функциональности платформы. Подробнее с ними можно<a>познакомиться в документации к платформе</a>.</p>
27
<p>HDFS (Hadoop Distributed File System) обрабатывает, хранит данные и управляет доступом к ним. Она обеспечивает лучшую пропускную способность, чем традиционные файловые системы, а также высокую отказоустойчивость и встроенную поддержку больших данных. Как и любая файловая система, HDFS представляет собой иерархию каталогов с вложенными в них подкаталогами и файлами.</p>
27
<p>HDFS (Hadoop Distributed File System) обрабатывает, хранит данные и управляет доступом к ним. Она обеспечивает лучшую пропускную способность, чем традиционные файловые системы, а также высокую отказоустойчивость и встроенную поддержку больших данных. Как и любая файловая система, HDFS представляет собой иерархию каталогов с вложенными в них подкаталогами и файлами.</p>
28
<p>Yet Another Resource Negotiator (диспетчер ресурсов) - платформа, которая управляет узлами кластера, планирует их работу и распределяет вычислительные ресурсы в системе Hadoop.</p>
28
<p>Yet Another Resource Negotiator (диспетчер ресурсов) - платформа, которая управляет узлами кластера, планирует их работу и распределяет вычислительные ресурсы в системе Hadoop.</p>
29
<p>YARN мониторит динамическое выделение ресурсов кластера приложениям Hadoop и отслеживает выполнение заданий обработки. Она поддерживает несколько подходов к планированию задач - например, FIFO: "первым пришёл - первым ушёл", то есть обработку задач в порядке их поступления.</p>
29
<p>YARN мониторит динамическое выделение ресурсов кластера приложениям Hadoop и отслеживает выполнение заданий обработки. Она поддерживает несколько подходов к планированию задач - например, FIFO: "первым пришёл - первым ушёл", то есть обработку задач в порядке их поступления.</p>
30
<p>Это фреймворк, который используется для обработки данных, хранящихся в HDFS. MapReduce упрощает и ускоряет процесс за счёт простых действий - разбивает данные на небольшие части и обрабатывает их параллельно. Затем он объединяет итоги расчётов для получения общего результата. Про MapReduce подробнее поговорим позже.</p>
30
<p>Это фреймворк, который используется для обработки данных, хранящихся в HDFS. MapReduce упрощает и ускоряет процесс за счёт простых действий - разбивает данные на небольшие части и обрабатывает их параллельно. Затем он объединяет итоги расчётов для получения общего результата. Про MapReduce подробнее поговорим позже.</p>
31
<p>Это набор библиотек и утилит для работы с различными компонентами Hadoop: настройки, управления и обеспечения безопасности.</p>
31
<p>Это набор библиотек и утилит для работы с различными компонентами Hadoop: настройки, управления и обеспечения безопасности.</p>
32
<p>Вот некоторые из утилит:</p>
32
<p>Вот некоторые из утилит:</p>
33
<ul><li>Common Configuration позволяет настраивать приложения Hadoop с помощью XML-файлов.</li>
33
<ul><li>Common Configuration позволяет настраивать приложения Hadoop с помощью XML-файлов.</li>
34
<li>Common IO обеспечивает работу с различными файловыми системами - например, HDFS и Amazon S3.</li>
34
<li>Common IO обеспечивает работу с различными файловыми системами - например, HDFS и Amazon S3.</li>
35
<li>Common Security включает утилиты, связанные с безопасностью, такие как системы аутентификация и авторизация.</li>
35
<li>Common Security включает утилиты, связанные с безопасностью, такие как системы аутентификация и авторизация.</li>
36
</ul><p>В экосистему входит множество других инструментов и решений. Большинство из них используется для дополнения или поддержки четырёх основных компонентов. Вот некоторые из них:</p>
36
</ul><p>В экосистему входит множество других инструментов и решений. Большинство из них используется для дополнения или поддержки четырёх основных компонентов. Вот некоторые из них:</p>
37
<em>Инфографика: Skillbox Media</em><p>Pig - платформа, которая используется для анализа больших данных: она представляет их в виде потоков данных.</p>
37
<em>Инфографика: Skillbox Media</em><p>Pig - платформа, которая используется для анализа больших данных: она представляет их в виде потоков данных.</p>
38
<p>Hive - система управления базами данных, позволяющая читать и записывать массивы данных, управлять массивами, размещёнными в распределённом хранилище. Можно сказать, что это инструмент для SQL-подобных запросов к большим данным, который преобразует запросы в серию MapReduce-задач. Именно Hive чаще всего используется как точка входа в экосистему, так как с чистым Hadoop работают только дата-инженеры.</p>
38
<p>Hive - система управления базами данных, позволяющая читать и записывать массивы данных, управлять массивами, размещёнными в распределённом хранилище. Можно сказать, что это инструмент для SQL-подобных запросов к большим данным, который преобразует запросы в серию MapReduce-задач. Именно Hive чаще всего используется как точка входа в экосистему, так как с чистым Hadoop работают только дата-инженеры.</p>
39
<p>HBase - база данных NoSQL, работающая поверх Hadoop и в реальном времени обеспечивающая доступ к большим массивам данных в режиме чтения и записи.</p>
39
<p>HBase - база данных NoSQL, работающая поверх Hadoop и в реальном времени обеспечивающая доступ к большим массивам данных в режиме чтения и записи.</p>
40
<p>Spark MLlib - библиотека машинного обучения для Apache Spark, предоставляющая масштабируемые алгоритмы машинного обучения.</p>
40
<p>Spark MLlib - библиотека машинного обучения для Apache Spark, предоставляющая масштабируемые алгоритмы машинного обучения.</p>
41
<p>ZooKeeper - сервис для координации распределённых систем и управления ими.</p>
41
<p>ZooKeeper - сервис для координации распределённых систем и управления ими.</p>
42
<p>Oozie - система планирования рабочих процессов для управления заданиями Hadoop.</p>
42
<p>Oozie - система планирования рабочих процессов для управления заданиями Hadoop.</p>
43
<p>Spark - фреймворк, постепенно вытесняющий MapReduce. Эксперты выделяют несколько причин этого.</p>
43
<p>Spark - фреймворк, постепенно вытесняющий MapReduce. Эксперты выделяют несколько причин этого.</p>
44
<p><strong>Высокая скорость работы.</strong>Apache Spark может обрабатывать данные в 10-100 раз быстрее, чем MapReduce. Это связано с тем, что он работает с информацией в оперативной памяти, в то время как MapReduce после каждого действия сохраняет данные на диске. Поэтому Spark чаще используется в задачах, требующих обработки больших данных в реальном времени.</p>
44
<p><strong>Высокая скорость работы.</strong>Apache Spark может обрабатывать данные в 10-100 раз быстрее, чем MapReduce. Это связано с тем, что он работает с информацией в оперативной памяти, в то время как MapReduce после каждого действия сохраняет данные на диске. Поэтому Spark чаще используется в задачах, требующих обработки больших данных в реальном времени.</p>
45
<p><strong>Простота использования.</strong>Spark предоставляет высокоуровневые API на языках Java, Scala, Python и R. MapReduce работает с низкоуровневыми API на Java, что затрудняет работу.</p>
45
<p><strong>Простота использования.</strong>Spark предоставляет высокоуровневые API на языках Java, Scala, Python и R. MapReduce работает с низкоуровневыми API на Java, что затрудняет работу.</p>
46
<p><strong>Потоковая передача данных в реальном времени.</strong>Spark предоставляет возможности потоковой обработки в реальном времени, позволяя пользователям обрабатывать данные по мере их появления.</p>
46
<p><strong>Потоковая передача данных в реальном времени.</strong>Spark предоставляет возможности потоковой обработки в реальном времени, позволяя пользователям обрабатывать данные по мере их появления.</p>
47
<p><strong>Возможности для машинного обучения.</strong>Spark содержит библиотеки машинного обучения, позволяющие пользователям создавать модели и обучать их на больших наборах данных.</p>
47
<p><strong>Возможности для машинного обучения.</strong>Spark содержит библиотеки машинного обучения, позволяющие пользователям создавать модели и обучать их на больших наборах данных.</p>
48
<p>Если коротко, то Hadoop распределяет большие данные по кластеру общедоступного оборудования и обрабатывает их на нескольких рабочих машинах. Таких машин может быть две, а может - несколько тысяч.</p>
48
<p>Если коротко, то Hadoop распределяет большие данные по кластеру общедоступного оборудования и обрабатывает их на нескольких рабочих машинах. Таких машин может быть две, а может - несколько тысяч.</p>
49
<p>Теперь подробный ответ. Для этого разберёмся в работе MapReduce. Она состоит из двух основных функций.</p>
49
<p>Теперь подробный ответ. Для этого разберёмся в работе MapReduce. Она состоит из двух основных функций.</p>
50
<p><strong>Map</strong> - предварительная обработка входных данных. Главный узел кластера получает данные, делит их на части и передаёт рабочим узлам. Последние вновь применяют функцию Map к своим локальным данным и записывают результат в формате "ключ - значение" во временное хранилище. Именно на этом этапе распределённые фрагменты данных проходят необходимую обработку: фильтрацию, сортировку, анализ и так далее.</p>
50
<p><strong>Map</strong> - предварительная обработка входных данных. Главный узел кластера получает данные, делит их на части и передаёт рабочим узлам. Последние вновь применяют функцию Map к своим локальным данным и записывают результат в формате "ключ - значение" во временное хранилище. Именно на этом этапе распределённые фрагменты данных проходят необходимую обработку: фильтрацию, сортировку, анализ и так далее.</p>
51
<p><strong>Reduce</strong> - процесс свёртки предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует решение задачи, то есть итоговый результат.</p>
51
<p><strong>Reduce</strong> - процесс свёртки предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует решение задачи, то есть итоговый результат.</p>
52
<p>Вот и всё. Всего две функции, которые выполняются одновременно на нескольких сотнях или тысячах рабочих узлов.</p>
52
<p>Вот и всё. Всего две функции, которые выполняются одновременно на нескольких сотнях или тысячах рабочих узлов.</p>
53
<p>Платформу используют для хранения и обработки больших объёмов данных. Они могут содержать информацию о банковских транзакциях, сведения о посещённых сайтах, журналы веб-серверов и мобильных приложений, сообщения в социальных сетях, электронные письма клиентов, данные датчиков из интернета вещей (IoT) и многое другое. Посмотрим на примеры практического применения Hadoop.</p>
53
<p>Платформу используют для хранения и обработки больших объёмов данных. Они могут содержать информацию о банковских транзакциях, сведения о посещённых сайтах, журналы веб-серверов и мобильных приложений, сообщения в социальных сетях, электронные письма клиентов, данные датчиков из интернета вещей (IoT) и многое другое. Посмотрим на примеры практического применения Hadoop.</p>
54
<p>В ретейле Hadoop используется для оптимизации уровня текущих складских запасов, повышения точности прогнозирования спроса и сокращения времени выполнения заказов.</p>
54
<p>В ретейле Hadoop используется для оптимизации уровня текущих складских запасов, повышения точности прогнозирования спроса и сокращения времени выполнения заказов.</p>
55
<p>Банки и инвестиционные компании применяют Hadoop для моделирования и оценки финансовых рисков, а также для управления рисками при работе с клиентскими портфелями.</p>
55
<p>Банки и инвестиционные компании применяют Hadoop для моделирования и оценки финансовых рисков, а также для управления рисками при работе с клиентскими портфелями.</p>
56
<p>Государственные и частные медицинские учреждения обрабатывают большие объёмы данных о клиентах. Hadoop может быть полезна:</p>
56
<p>Государственные и частные медицинские учреждения обрабатывают большие объёмы данных о клиентах. Hadoop может быть полезна:</p>
57
<ul><li>при обработке данных для оценки заболеваемости населения;</li>
57
<ul><li>при обработке данных для оценки заболеваемости населения;</li>
58
<li>для выявления мошенничества с медицинскими страховками.</li>
58
<li>для выявления мошенничества с медицинскими страховками.</li>
59
</ul><p>Научные институты используют Hadoop в различных областях:</p>
59
</ul><p>Научные институты используют Hadoop в различных областях:</p>
60
<ul><li>Геномика. Анализ больших наборов геномных данных для выявления генетических вариаций, которые могут быть связаны с заболеваниями.</li>
60
<ul><li>Геномика. Анализ больших наборов геномных данных для выявления генетических вариаций, которые могут быть связаны с заболеваниями.</li>
61
<li>Астрономия. Обработка данных с телескопов для идентификации небесных тел и изучения их свойств.</li>
61
<li>Астрономия. Обработка данных с телескопов для идентификации небесных тел и изучения их свойств.</li>
62
<li>Социология. Анализ данных из социальных сетей для определения тенденций и разработки моделей поведения пользователей.</li>
62
<li>Социология. Анализ данных из социальных сетей для определения тенденций и разработки моделей поведения пользователей.</li>
63
<li>Климатология. Работа с климатическими данными для изучения влияния изменения климата на окружающую среду.</li>
63
<li>Климатология. Работа с климатическими данными для изучения влияния изменения климата на окружающую среду.</li>
64
</ul><p>Основные достоинства Hadoop - масштабируемость, универсальность, экономичность и отказоустойчивость.</p>
64
</ul><p>Основные достоинства Hadoop - масштабируемость, универсальность, экономичность и отказоустойчивость.</p>
65
<p><strong>Масштабируемость</strong>. Платформа не ограничивает ёмкость хранилища данных: пользователи могут быстро добавлять новые узлы, масштабируя кластер от нескольких компьютеров до тысяч рабочих машин.</p>
65
<p><strong>Масштабируемость</strong>. Платформа не ограничивает ёмкость хранилища данных: пользователи могут быстро добавлять новые узлы, масштабируя кластер от нескольких компьютеров до тысяч рабочих машин.</p>
66
<p><strong>Универсальность</strong>. Экосистема может хранить и обрабатывать неограниченное количество структурированных, частично структурированных и неструктурированных данных в любых форматах.</p>
66
<p><strong>Универсальность</strong>. Экосистема может хранить и обрабатывать неограниченное количество структурированных, частично структурированных и неструктурированных данных в любых форматах.</p>
67
<p><strong>Экономичность</strong>. Платформа работает на любом стандартном оборудовании, не требуя больших затрат на организацию хранения больших данных и управления ими.</p>
67
<p><strong>Экономичность</strong>. Платформа работает на любом стандартном оборудовании, не требуя больших затрат на организацию хранения больших данных и управления ими.</p>
68
<p><strong>Отказоустойчивость</strong>. Hadoop защищает приложения и обработку данных от аппаратных сбоёв. Если один узел в кластере выходит из строя, система автоматически перенаправляет задания по обработке на другие узлы, чтобы приложения продолжили работу, восстановив фрагмент потерянных данных из первичного источника.</p>
68
<p><strong>Отказоустойчивость</strong>. Hadoop защищает приложения и обработку данных от аппаратных сбоёв. Если один узел в кластере выходит из строя, система автоматически перенаправляет задания по обработке на другие узлы, чтобы приложения продолжили работу, восстановив фрагмент потерянных данных из первичного источника.</p>
69
<p>Hadoop появилась в 2005 году и за почти два десятка лет превратилась в огромную экосистему с десятками приложений. За это время появились и другие платформы для работы с большими данными, однако Hadoop всё ещё удерживает лидерство:</p>
69
<p>Hadoop появилась в 2005 году и за почти два десятка лет превратилась в огромную экосистему с десятками приложений. За это время появились и другие платформы для работы с большими данными, однако Hadoop всё ещё удерживает лидерство:</p>
70
<em>Инфографика: Skillbox Media</em><p>Hadoop продолжает развиваться и регулярно обновляться. Например, последняя стабильная версия 3.3.6 вышла 23 июня 2023 года. Кроме того, у экосистемы большое сообщество и <a>подробная документация</a>, что делает её платформой №1 для работы с большими данными.</p>
70
<em>Инфографика: Skillbox Media</em><p>Hadoop продолжает развиваться и регулярно обновляться. Например, последняя стабильная версия 3.3.6 вышла 23 июня 2023 года. Кроме того, у экосистемы большое сообщество и <a>подробная документация</a>, что делает её платформой №1 для работы с большими данными.</p>
71
<p>Давайте резюмируем то, что мы узнали о Hadoop.</p>
71
<p>Давайте резюмируем то, что мы узнали о Hadoop.</p>
72
<ul><li>Hadoop - экосистема приложений для работы с большими данными.</li>
72
<ul><li>Hadoop - экосистема приложений для работы с большими данными.</li>
73
<li>Она состоит из четырёх ключевых компонентов: HDFS, YARN, MapReduce и Common. Есть ещё несколько десятков дополнительных инструментов, в том числе от сторонних разработчиков.</li>
73
<li>Она состоит из четырёх ключевых компонентов: HDFS, YARN, MapReduce и Common. Есть ещё несколько десятков дополнительных инструментов, в том числе от сторонних разработчиков.</li>
74
<li>Основа работы Hadoop - парадигма MapReduce, позволяющая разделить данные по отдельным кластерам, то есть рабочим машинам, и обрабатывать их параллельно друг другу.</li>
74
<li>Основа работы Hadoop - парадигма MapReduce, позволяющая разделить данные по отдельным кластерам, то есть рабочим машинам, и обрабатывать их параллельно друг другу.</li>
75
<li>Apache Spark - логичное развитие MapReduce, позволяющее увеличить скорость обработки данных.</li>
75
<li>Apache Spark - логичное развитие MapReduce, позволяющее увеличить скорость обработки данных.</li>
76
<li>Hadoop используется в сферах, где необходимо работать с большими данными: в ретейле, здравоохранении, банковском деле и так далее.</li>
76
<li>Hadoop используется в сферах, где необходимо работать с большими данными: в ретейле, здравоохранении, банковском деле и так далее.</li>
77
</ul><p>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</p>
77
</ul><p>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</p>
78
<p>Data Science с нуля: пробуем профессии на практике за 5 дней</p>
78
<p>Data Science с нуля: пробуем профессии на практике за 5 дней</p>
79
<p>Вы разберётесь в трёх главных направлениях data science: машинном обучении, разработке на Python и визуализации данных. Решите, какая сфера вам ближе, и выполните 4 реальные задачи с данными.</p>
79
<p>Вы разберётесь в трёх главных направлениях data science: машинном обучении, разработке на Python и визуализации данных. Решите, какая сфера вам ближе, и выполните 4 реальные задачи с данными.</p>
80
<p><a>Пройти бесплатно</a></p>
80
<p><a>Пройти бесплатно</a></p>
81
<a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>
81
<a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>