Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: apache spark, apache mapreduce

2 Как известно, еще не так давно при обработке больших данных активно применялсяMapReduce-- Hadoop-компонент, положивший начало Big Data-обработке. Однако сегодня можно сказать, что у этого инструмента есть 2 основные проблемы:

3 <ol><li>Невысокая производительность. МодельMapReduceвыполняет вычисления за 2 этапа. В первую очередь он разделяет данные на части, передавая их на кластерные узлы для обработки. Потом каждый узел производит обработку данных с отправкой результата на главный узел, где и сформировывается итоговый результат распределенных вычислений. При этомMapReduceрегулярно обращается к диску, ведь именно там он сохраняет промежуточные и финальные итоги вычислений. Таким образом, модель функционирует с задержками, причем эти задержки ограничивают применениеMapReduceв целях обработки потоковых данных и решения Machine learning-задач.</li>

4 <li>Повышенная сложность. Для написания хорошего решения наMapReduceпонадобится довольно высокий уровень экспертности. На практике даже относительно опытный инженер может легко допустить ошибку либо написать неэффективный алгоритм.</li>

5 </ol><h2>И вот пришел Spark...</h2>

6 Но, как мы знаем, в 2014 появился фреймворкSpark. Он быстро стал завоевывать популярность, причем сегодня он почти вытеснилMapReduce. Собственно говоря, он и разрабатывался в целях устранения недостатковMapReduce, но, что очень важно, с сохранением преимуществ предшественника. Давайте посмотрим, каким образомApache Sparkрешает проблемыMapReduce:

7 <ol><li>Sparkвыполняет обработку данных в памяти и, по сути, почти не обращается к диску. А при возникновении ситуации, когда объем обрабатываемых данных превышает объем RAM, Spark просто сбрасывает часть обрабатываемых данных на диск. Причем во фреймворк включены различные оптимизаторы, позволяющие сокращать количество обращений к диску. Именно поэтомуSparkи быстрееMapReduceв десятки раз (а иногда и в сотни!)</li>

8 <li>ВSparkсуществуетAPIдля различных языков программирования, в результате чего писать код заметно проще, да и сам программный код более компактен. Как правило, разработчики пишут наSparkотносительно высокоуровневые инструкции, а уже то, как оптимальнее их выполнить, решает он сам, причем нередко он способен выполнить эту задачу лучше человека.</li>

9 </ol>К примеру, тому же Junior Data-engineer'y вполне по силам написать код наSpark, который станет работать быстрее, чем программный код, написанный более опытным Senior Data-engineer'ом наMapReduce. Кроме того, что немаловажно, на Spark у вас будет меньше шансов совершить серьезную ошибку. Собственно говоря, даже если вы и допустите ошибку, то исправить ее тоже будет легче.

10 <h2>Вывод прост</h2>

11 Если подвести некую черту, то можно с уверенностью сказать, что на момент написания материалаHadoop MapReduceявляется устаревающей технологией, в то время какApache Sparkфактически стал сегодня стандартом в области обработки Big Data.

12 По материалам https://mcs.mail.ru/blog/.