0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: форматы файлов, bid data</p>
1
<p>Теги: форматы файлов, bid data</p>
2
<p>Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:</p>
2
<p>Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:</p>
3
<ul><li>увеличение быстроты чтения;</li>
3
<ul><li>увеличение быстроты чтения;</li>
4
<li>увеличение быстроты записи;</li>
4
<li>увеличение быстроты записи;</li>
5
<li>поддержка эволюции схем;</li>
5
<li>поддержка эволюции схем;</li>
6
<li>поддержка разделяемых файлов;</li>
6
<li>поддержка разделяемых файлов;</li>
7
<li>расширенная поддержка сжатия.</li>
7
<li>расширенная поддержка сжатия.</li>
8
</ul><p>Одни форматы хороши для общего применения, вторые -- для специфического использования, третьи специально разработаны с учетом определенных характеристик данных. В принципе, выбор существует, что не может не радовать.</p>
8
</ul><p>Одни форматы хороши для общего применения, вторые -- для специфического использования, третьи специально разработаны с учетом определенных характеристик данных. В принципе, выбор существует, что не может не радовать.</p>
9
<p>Говоря о выборе, давайте вспомним, что мы уже подробно рассказывали про следующие<strong>форматы файлов в Big Data</strong>:</p>
9
<p>Говоря о выборе, давайте вспомним, что мы уже подробно рассказывали про следующие<strong>форматы файлов в Big Data</strong>:</p>
10
<ul><li><a>Avro</a>,</li>
10
<ul><li><a>Avro</a>,</li>
11
<li><a>ORC</a>,</li>
11
<li><a>ORC</a>,</li>
12
<li><a>Parquet</a>.</li>
12
<li><a>Parquet</a>.</li>
13
</ul><p>Что же, давайте вкратце сравним их между собой.</p>
13
</ul><p>Что же, давайте вкратце сравним их между собой.</p>
14
<h2>Avro vs Parquet</h2>
14
<h2>Avro vs Parquet</h2>
15
<p>Говоря об этих форматах, стоит выделить следующее:</p>
15
<p>Говоря об этих форматах, стоит выделить следующее:</p>
16
<ol><li>Avro представляет собой формат хранения по строкам, в то время как Parquet хранит данные по столбцам.</li>
16
<ol><li>Avro представляет собой формат хранения по строкам, в то время как Parquet хранит данные по столбцам.</li>
17
<li>В Avro операции записи выполняются более эффективно.</li>
17
<li>В Avro операции записи выполняются более эффективно.</li>
18
<li>Parquet лучше подходит для выполнения аналитических запросов (операции чтения и запроса данных выполняются более эффективно, чем операция записи).</li>
18
<li>Parquet лучше подходит для выполнения аналитических запросов (операции чтения и запроса данных выполняются более эффективно, чем операция записи).</li>
19
<li>Считается, что Avro лучше работает с эволюцией схем. Если тот же Parquet поддерживает лишь добавление схемы, то в Avro поддерживается многофункциональная эволюция, включая добавление и изменение столбцов.</li>
19
<li>Считается, что Avro лучше работает с эволюцией схем. Если тот же Parquet поддерживает лишь добавление схемы, то в Avro поддерживается многофункциональная эволюция, включая добавление и изменение столбцов.</li>
20
<li>Формат Parquet идеален, если говорить о запросе подмножества столбцов в таблице многоколоночного типа. В то же самое время Avro прекрасно подходит для выполнения ETL-операций, к примеру, когда запрашиваются все столбцы.</li>
20
<li>Формат Parquet идеален, если говорить о запросе подмножества столбцов в таблице многоколоночного типа. В то же самое время Avro прекрасно подходит для выполнения ETL-операций, к примеру, когда запрашиваются все столбцы.</li>
21
</ol><h2>ORC vs Parquet</h2>
21
</ol><h2>ORC vs Parquet</h2>
22
<p>В данном сравнении следует выделить лишь 4 тезиса:</p>
22
<p>В данном сравнении следует выделить лишь 4 тезиса:</p>
23
<ol><li>Формат Parquet лучше хранит вложенные данные.</li>
23
<ol><li>Формат Parquet лучше хранит вложенные данные.</li>
24
<li>Формат ORC лучше приспособлен к predicate pushdown (проталкиванию предикатов).</li>
24
<li>Формат ORC лучше приспособлен к predicate pushdown (проталкиванию предикатов).</li>
25
<li>ORC поддерживает ACID-свойства.</li>
25
<li>ORC поддерживает ACID-свойства.</li>
26
<li>ORC лучше сжимает данные.</li>
26
<li>ORC лучше сжимает данные.</li>
27
</ol><p><em>По материалам https://blog.clairvoyantsoft.com/big-data-file-formats-3fb659903271.</em></p>
27
</ol><p><em>По материалам https://blog.clairvoyantsoft.com/big-data-file-formats-3fb659903271.</em></p>
28
28