Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: python, numpy, pandas, matplotlib, сводные таблицы, группировки, dataframe, split-apply-combine, тип ndarray, block, blockmanager, dict, overhead, values фрейма

2 Pandasсегодня является чуть ли неgo-toинструментом для решения аналитических задач. Он предоставляет удобный и понятный широкому кругу исследователей интерфейс манипуляции массивами данных. Давай те же посмотрим, что "под капотом" этой библиотеки и за счёт чего происходит такая эффективная работа с данными?

3 Напомним, чтоPandas- это библиотека Python, которая является мощным инструментом для анализа данных. Пакет даёт возможность строить сводные таблицы, выполнять группировки, предоставляет удобный доступ к табличным данным, а при наличии пакетаmatplotlibдаёт возможность рисовать графики на полученных наборах данных.

4 <h2>Основные возможности библиотеки:</h2>

5 - ОбъектDataFrameдля манипулирования индексированными массивами двумерных данных; - Инструменты для обмена данными между структурами в памяти и файлами различных форматов; - Встроенные средства совмещения данных и способы обработки отсутствующей информации; - Переформатирование наборов данных, в том числе создание сводных таблиц; - Срез данных по значениям индекса, расширенные возможности индексирования, выборка из больших наборов данных; - Вставка и удаление столбцов данных; - Возможности группировки позволяют выполнять трёхэтапные операции типа "разделение, изменение, объединение" (англ.split-apply-combine); - Слияние и объединение наборов данных; - Иерархическое индексирование позволяет работать с данными высокой размерности в структурах меньшей размерности; - Работа с временными рядами: формирование временных периодов и изменение интервалов и т. д.; - Ссылка на<a>github</a>.

6 <h2>Что же внутри?</h2>

7 На самом деле, основная структура данных вPandas-DataFrame- тесно завязана на использовании функционалаNumPyи, в частности, типаndarray.

8 Колонки из фрейма группируются по типу и хранятся вместе в видеndarray’ев. Каждая такая группа называетсяBlock’ом. Само собой, вndarrayнет никаких именованных осей и индексов, поэтому, чтобы транслировать обращения к фрейму в действия с реальными данными, существуетBlockManager, через который проходят все запросы.

9 Такая архитектура сложилась исторически. Изначально данные хранились в обычныхdict’ах, но, как видно, многое с тех пор изменилось. У такого подхода есть плюсы и минусы.

10 В плюсы можно записать использование функционалаNumPy, который себя прекрасно зарекомендовал, аndarray’и, как известно, хорошо оптимизированы и отлично подходят для манипуляций с числами.

11 С другой стороны,BlockManagerсоздаётoverheadна любые операции доступа к данным, а из-за "кусочного" хранения любое добавление строк вDataFrameведёт к копированию и расширению множества блоков.

12 Как следствие, в некоторых случаях для повышения производительности имеет смысл работать непосредственно сvaluesфрейма и не добавлять строки во фрейм по одной, а сразу сливать большие фреймы.