Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Parquetпредставляет собой Open source-формат для<a>Hadoop</a>, который может хранить вложенные структуры данных в видеплоского столбчатого формата. Если сравнивать с обычным строчным подходом, тоParquetявляется более эффективным в плане хранения и производительности. А это уже, в свою очередь, весьма полезно для запросов, считывающих определенные столбцы из широкой таблицы (имеются ввиду таблицы со многими столбцами). Таким образом, благодаря файловому формату происходит считывание лишь необходимых столбцов, поэтому ввод-вывод будет сведен к минимуму.

2 Однако давайте сделаем небольшую ремарку: для наилучшего понимания файлового форматаParquetв<a>Hadoop</a>надо взглянуть настолбчатый формат, то есть формат, основанный на столбцах. Дело в том, что в нем могут вместе храниться однотипные значения каждого столбца.

3 К примеру, наша запись включает такие поля, какID,NameиDepartment. В данном случае все значения столбцаIDстанут храниться вместе, впрочем, так же, как и значения столбцаName, ну и т. д. Следовательно, таблица получит приблизительно следующий вид:

4 Встроковом форматесохранение данных осуществляется следующим образом:

5 А вот, как обстоит дело в случае состолбчатым форматомфайлов:

6 Таким образом,столбчатый формат будет более эффективным, если надо запрашивать из таблицы несколько столбцов. При использовании такого формата, будут считаны лишь нужные столбцы, т. к. они располагаются по соседству. Следовательно,операции ввода-вывода будут сведены к минимуму.

7 Представим, что нужен лишь столбецNAME. Если используетсястроковыйформат, то каждую запись в наборе данных надо будет загрузить, разобрать по полям, а потом извлечь данныеNAME.Столбчатыйже формат позволит перейти непосредственно к столбцуName, ведь все значения для него хранятся вместе. Следовательно, всю запись сканировать не потребуется.

8 Итак, столбчатый формат повысит производительность запросов, ведь для перехода к требуемым столбцам надо меньше времени на поиск. Также сокращается число операций ввода-вывода, так как происходит чтение лишь нужных столбцов.

9 УParquetсуществует и уникальная особенность: способность хранить данные со вложенными структурами. К примеру, в файлеParquetдаже вложенные поля вы сможете читать по отдельности, то есть нет необходимости считывать все поля во вложенной структуре. Что касается хранения вложенных структур, то здесьParquetзадействует алгоритм измельчения и сборки (shredding and assembly).

10 Для понимания формата файлаParquetв Hadoop, следует знать ряд терминов:

11 <ol><li>Группа строк (row group). Речь идет о логическом горизонтальном разбиении данных на строки. При этом row group состоит из фрагмента каждого столбца в наборе данных.</li>

12 <li>Фрагмент столбца (column chunk). В принципе, имеется в виду фрагмент конкретного столбца. Такие фрагменты столбцов "проживают" в определенной группе строк и гарантированно являются смежными в файле.</li>

13 <li>Страница (page). Вышеописанные фрагменты столбцов делятся на страницы, которые записаны друг за другом. Страницы имеют общий заголовок, поэтому при чтении ненужные можно пропустить.</li>

14 </ol>На картинке заголовок содержит волшебное числоPAR1(4 байта), идентифицирующее файл как файл Parquet-формата.

15 Осталось посмотреть, что записано в футере:

16 По материалам блога<a>MCS.Mail.ru</a>.