Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: производительность, spark, broadcasting

2 Соединение нескольких таблиц является достаточно распространенной операцией вSpark. Как правило, при ее выполнении происходит перетасовка (shuffle), которая за счет перемещений данных между узлами оказывает влияние на производительность. Можно ли избежать этой дорогостоящей операции?

3 Практика показывает, что можно, если одна из таблиц не является большой по размеру. Например, посредствомBroadcasting-- трансляции небольшой таблицы по кластерным узлам, в результате чего операции перетасовки можно избежать.

4 Давайте представим, что у нас существует таблицаdf_order, содержащая информацию о заказах. Кроме того, есть также и таблицаdf_city, включающая в себя информацию о городах, которые соответствуют заказу. И если даже в самих заказах миллионы строк и много столбцов, то, скорее всего, в таблицеdf_cityчисло городов будет не очень высоким, к примеру, сотни строк. И если при добавлении информации о городах мы добавим к таблице заказов трансляцию (Broadcasting), никакой перетасовки не произойдет.

5 Важно отметить, что максимальный размер таблицы для трансляции составляет 8 Гб. ТакжеSparkподдерживает изменение границы размеров этой таблицы, при которыхBroadcastingстанет выполняться автоматически. Реализовать это можно через параметр spark.sql.autoBroadcastJoinThreshold, который по дефолту равен 10 Мб.

6 Источник: https://towardsdatascience.com/apache-spark-performance-boosting-e072a3ec1179

7 P. S. Интересует Spark? Обратите внимание на<a>специализированный курс по Spark</a>в Otus.