HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: форматы файлов, bid data</p>
1 <p>Теги: форматы файлов, bid data</p>
2 <p>Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:</p>
2 <p>Как известно, обработка больших данных повышает нагрузку на подсистему хранения. Кроме дисков, нагружается сеть, процессор, система ввода-вывода. Чем быстрее растет объем данных, тем быстрее повышается цена их хранения и обработки. Чтобы решить эти проблемы, в Hadoop существуют разные форматы файлов. Выбрав нужный формат, можно получить следующие преимущества:</p>
3 <ul><li>увеличение быстроты чтения;</li>
3 <ul><li>увеличение быстроты чтения;</li>
4 <li>увеличение быстроты записи;</li>
4 <li>увеличение быстроты записи;</li>
5 <li>поддержка эволюции схем;</li>
5 <li>поддержка эволюции схем;</li>
6 <li>поддержка разделяемых файлов;</li>
6 <li>поддержка разделяемых файлов;</li>
7 <li>расширенная поддержка сжатия.</li>
7 <li>расширенная поддержка сжатия.</li>
8 </ul><p>Одни форматы хороши для общего применения, вторые -- для специфического использования, третьи специально разработаны с учетом определенных характеристик данных. В принципе, выбор существует, что не может не радовать.</p>
8 </ul><p>Одни форматы хороши для общего применения, вторые -- для специфического использования, третьи специально разработаны с учетом определенных характеристик данных. В принципе, выбор существует, что не может не радовать.</p>
9 <p>Говоря о выборе, давайте вспомним, что мы уже подробно рассказывали про следующие<strong>форматы файлов в Big Data</strong>:</p>
9 <p>Говоря о выборе, давайте вспомним, что мы уже подробно рассказывали про следующие<strong>форматы файлов в Big Data</strong>:</p>
10 <ul><li><a>Avro</a>,</li>
10 <ul><li><a>Avro</a>,</li>
11 <li><a>ORC</a>,</li>
11 <li><a>ORC</a>,</li>
12 <li><a>Parquet</a>.</li>
12 <li><a>Parquet</a>.</li>
13 </ul><p>Что же, давайте вкратце сравним их между собой.</p>
13 </ul><p>Что же, давайте вкратце сравним их между собой.</p>
14 <h2>Avro vs Parquet</h2>
14 <h2>Avro vs Parquet</h2>
15 <p>Говоря об этих форматах, стоит выделить следующее:</p>
15 <p>Говоря об этих форматах, стоит выделить следующее:</p>
16 <ol><li>Avro представляет собой формат хранения по строкам, в то время как Parquet хранит данные по столбцам.</li>
16 <ol><li>Avro представляет собой формат хранения по строкам, в то время как Parquet хранит данные по столбцам.</li>
17 <li>В Avro операции записи выполняются более эффективно.</li>
17 <li>В Avro операции записи выполняются более эффективно.</li>
18 <li>Parquet лучше подходит для выполнения аналитических запросов (операции чтения и запроса данных выполняются более эффективно, чем операция записи).</li>
18 <li>Parquet лучше подходит для выполнения аналитических запросов (операции чтения и запроса данных выполняются более эффективно, чем операция записи).</li>
19 <li>Считается, что Avro лучше работает с эволюцией схем. Если тот же Parquet поддерживает лишь добавление схемы, то в Avro поддерживается многофункциональная эволюция, включая добавление и изменение столбцов.</li>
19 <li>Считается, что Avro лучше работает с эволюцией схем. Если тот же Parquet поддерживает лишь добавление схемы, то в Avro поддерживается многофункциональная эволюция, включая добавление и изменение столбцов.</li>
20 <li>Формат Parquet идеален, если говорить о запросе подмножества столбцов в таблице многоколоночного типа. В то же самое время Avro прекрасно подходит для выполнения ETL-операций, к примеру, когда запрашиваются все столбцы.</li>
20 <li>Формат Parquet идеален, если говорить о запросе подмножества столбцов в таблице многоколоночного типа. В то же самое время Avro прекрасно подходит для выполнения ETL-операций, к примеру, когда запрашиваются все столбцы.</li>
21 </ol><h2>ORC vs Parquet</h2>
21 </ol><h2>ORC vs Parquet</h2>
22 <p>В данном сравнении следует выделить лишь 4 тезиса:</p>
22 <p>В данном сравнении следует выделить лишь 4 тезиса:</p>
23 <ol><li>Формат Parquet лучше хранит вложенные данные.</li>
23 <ol><li>Формат Parquet лучше хранит вложенные данные.</li>
24 <li>Формат ORC лучше приспособлен к predicate pushdown (проталкиванию предикатов).</li>
24 <li>Формат ORC лучше приспособлен к predicate pushdown (проталкиванию предикатов).</li>
25 <li>ORC поддерживает ACID-свойства.</li>
25 <li>ORC поддерживает ACID-свойства.</li>
26 <li>ORC лучше сжимает данные.</li>
26 <li>ORC лучше сжимает данные.</li>
27 </ol><p><em>По материалам https://blog.clairvoyantsoft.com/big-data-file-formats-3fb659903271.</em></p>
27 </ol><p><em>По материалам https://blog.clairvoyantsoft.com/big-data-file-formats-3fb659903271.</em></p>
28  
28