1 added
1 removed
Original
2026-01-01
Modified
2026-03-10
1
<ul><li><a>Описание</a></li>
1
<ul><li><a>Описание</a></li>
2
<li><a>Ключевые функции</a><ul><li><a>Для чего нужен проект</a></li>
2
<li><a>Ключевые функции</a><ul><li><a>Для чего нужен проект</a></li>
3
</ul></li>
3
</ul></li>
4
<li><a>Историческая справка</a></li>
4
<li><a>Историческая справка</a></li>
5
<li><a>Ключевые возможности</a></li>
5
<li><a>Ключевые возможности</a></li>
6
<li><a>Начало работы</a><ul><li><a>Структуры данных</a><ul><li><a>Класс Series</a></li>
6
<li><a>Начало работы</a><ul><li><a>Структуры данных</a><ul><li><a>Класс Series</a></li>
7
<li><a>Data Frame</a><ul><li><a>Импорт CSV</a></li>
7
<li><a>Data Frame</a><ul><li><a>Импорт CSV</a></li>
8
</ul></li>
8
</ul></li>
9
</ul></li>
9
</ul></li>
10
</ul></li>
10
</ul></li>
11
</ul><p>Одним из наиболее популярных инструментов для системного анализа данных является Pandas. Давайте рассмотрим, какими особенностями обладает данная библиотека, для чего и как используется. Предложенная информацию будет полезна не только новичкам, но и опытным специалистам.</p>
11
</ul><p>Одним из наиболее популярных инструментов для системного анализа данных является Pandas. Давайте рассмотрим, какими особенностями обладает данная библиотека, для чего и как используется. Предложенная информацию будет полезна не только новичкам, но и опытным специалистам.</p>
12
<h2>Описание</h2>
12
<h2>Описание</h2>
13
<p>Pandas - программная библиотека, написанная на Python. Она используется для обработки и анализа данных. Работа здесь строится поверх library NumPy.</p>
13
<p>Pandas - программная библиотека, написанная на Python. Она используется для обработки и анализа данных. Работа здесь строится поверх library NumPy.</p>
14
<p>Если говорить простыми словами, Pandas - это как Excel, но мощнее. Здесь программист сможет работать с данными, объемом в тысячи и даже миллионы строк. Pandas предоставляет высокопроизводительные структуры информации, а также инструменты для их анализа.</p>
14
<p>Если говорить простыми словами, Pandas - это как Excel, но мощнее. Здесь программист сможет работать с данными, объемом в тысячи и даже миллионы строк. Pandas предоставляет высокопроизводительные структуры информации, а также инструменты для их анализа.</p>
15
<h2>Ключевые функции</h2>
15
<h2>Ключевые функции</h2>
16
<p>Pandas широко используется в разработке. Она обеспечивает простоту в рамках среды Python. Используется для:</p>
16
<p>Pandas широко используется в разработке. Она обеспечивает простоту в рамках среды Python. Используется для:</p>
17
<ul><li>сбора и очистки данных;</li>
17
<ul><li>сбора и очистки данных;</li>
18
<li>задач, связанных с анализом информации;</li>
18
<li>задач, связанных с анализом информации;</li>
19
<li>моделирования данных без переключения на специфичные для стартовой обработки языки (пример - Octave или R).</li>
19
<li>моделирования данных без переключения на специфичные для стартовой обработки языки (пример - Octave или R).</li>
20
</ul><p>Библиотека предназначается для очистки, а также первичной оценки данных по общим показателям. Пример - среднее значение, квантили и так далее.</p>
20
</ul><p>Библиотека предназначается для очистки, а также первичной оценки данных по общим показателям. Пример - среднее значение, квантили и так далее.</p>
21
<p>Pandas - это не статистический пакет, но его наборы информации применяются в виде входных в большинстве модулей анализа данных, а также при машинном обучении.</p>
21
<p>Pandas - это не статистический пакет, но его наборы информации применяются в виде входных в большинстве модулей анализа данных, а также при машинном обучении.</p>
22
<h3>Для чего нужен проект</h3>
22
<h3>Для чего нужен проект</h3>
23
<p>Pandas - это ключевая библиотека Питона, необходимая для работы с электронными материалами. Активно используется специалистами по BigDatas. Часто применяется для следующих задач:</p>
23
<p>Pandas - это ключевая библиотека Питона, необходимая для работы с электронными материалами. Активно используется специалистами по BigDatas. Часто применяется для следующих задач:</p>
24
<ol><li>Аналитика. Инструмент позволяет подготовить datas к дальнейшему использованию. Он удаляет или заполняет пропуски, проводит сортировку или вносит необходимые изменения. Обычно большую часть соответствующих процессов удается автоматизировать через изучаемый проект.</li>
24
<ol><li>Аналитика. Инструмент позволяет подготовить datas к дальнейшему использованию. Он удаляет или заполняет пропуски, проводит сортировку или вносит необходимые изменения. Обычно большую часть соответствующих процессов удается автоматизировать через изучаемый проект.</li>
25
<li>Data Science. Используется для подготовки и первичного анализа имеющихся сведений. Это необходимо для машинного/глубокого обучения.</li>
25
<li>Data Science. Используется для подготовки и первичного анализа имеющихся сведений. Это необходимо для машинного/глубокого обучения.</li>
26
<li>Статистика. В изучаемом проекте поддерживаются ключевые статистические методы. Они позволяют работать с информацией в электронном виде максимально эффективно и быстро. Пример - расчет средних значений.</li>
26
<li>Статистика. В изучаемом проекте поддерживаются ключевые статистические методы. Они позволяют работать с информацией в электронном виде максимально эффективно и быстро. Пример - расчет средних значений.</li>
27
</ol><p>Инструмент используется не только для обработки информации, но и для ее визуализации. Легко осваивается как опытными разработчиками, так и новичками.</p>
27
</ol><p>Инструмент используется не только для обработки информации, но и для ее визуализации. Легко осваивается как опытными разработчиками, так и новичками.</p>
28
<h2>Историческая справка</h2>
28
<h2>Историческая справка</h2>
29
<p>Рассматриваемый инструмент начал разрабатываться Уэсом Маккини, работающем в AQR Capital Management, в 2008 году. Он смог убедить работодателя перед увольнением разрешить опубликовать исходный код библиотеки. Так она получила открытость и свободную лицензию.</p>
29
<p>Рассматриваемый инструмент начал разрабатываться Уэсом Маккини, работающем в AQR Capital Management, в 2008 году. Он смог убедить работодателя перед увольнением разрешить опубликовать исходный код библиотеки. Так она получила открытость и свободную лицензию.</p>
30
<p>Позже, в 2012 году, к поддержке и совершенствованию продукта присоединился еще один сотрудник AQR - Чан Шэ. Он стал вторым главным разработчиком проекта. Примерно в этот момент Пандас стала набирать популярность в Python. Теперь соответствующий инструмент активно совершенствуется и дорабатывается свободными разработчиками.</p>
30
<p>Позже, в 2012 году, к поддержке и совершенствованию продукта присоединился еще один сотрудник AQR - Чан Шэ. Он стал вторым главным разработчиком проекта. Примерно в этот момент Пандас стала набирать популярность в Python. Теперь соответствующий инструмент активно совершенствуется и дорабатывается свободными разработчиками.</p>
31
<h2>Ключевые возможности</h2>
31
<h2>Ключевые возможности</h2>
32
<p>Рассматриваемый продукт для Питона обладает мощным функционалом. Он поддерживает следующие возможности:</p>
32
<p>Рассматриваемый продукт для Питона обладает мощным функционалом. Он поддерживает следующие возможности:</p>
33
<ul><li>объекты data frame для управления индексированными массивами двумерной информации;</li>
33
<ul><li>объекты data frame для управления индексированными массивами двумерной информации;</li>
34
<li>встроенные средства совмещения данных, а также способы обработки сопутствующих сведений;</li>
34
<li>встроенные средства совмещения данных, а также способы обработки сопутствующих сведений;</li>
35
<li>инструменты, необходимые для обмена электронными материалами между структурами памяти, а также всевозможными файлами и документами;</li>
35
<li>инструменты, необходимые для обмена электронными материалами между структурами памяти, а также всевозможными файлами и документами;</li>
36
<li>срезы по значениям индексов;</li>
36
<li>срезы по значениям индексов;</li>
37
<li>расширенные возможности при индексировании;</li>
37
<li>расширенные возможности при индексировании;</li>
38
<li>наличие выборки из больших объемов наборов информации;</li>
38
<li>наличие выборки из больших объемов наборов информации;</li>
39
<li>вставка, а также удаление столбцов в массиве;</li>
39
<li>вставка, а также удаление столбцов в массиве;</li>
40
<li>встроенные средства совмещения информации;</li>
40
<li>встроенные средства совмещения информации;</li>
41
<li>обработка отсутствующих сведений;</li>
41
<li>обработка отсутствующих сведений;</li>
42
<li>слияние и объединение имеющихся информационных наборов;</li>
42
<li>слияние и объединение имеющихся информационных наборов;</li>
43
<li>иерархическое индексирование, при помощи которой удается обрабатывать материалы высокой размерности в структурах с меньшей размерностью;</li>
43
<li>иерархическое индексирование, при помощи которой удается обрабатывать материалы высокой размерности в структурах с меньшей размерностью;</li>
44
<li>группировка, позволяющая выполнять трехэтапные операции типа "разделение, изменение и объединение" одновременно.</li>
44
<li>группировка, позволяющая выполнять трехэтапные операции типа "разделение, изменение и объединение" одновременно.</li>
45
</ul><p>Проект поддерживает временные ряды. Он позволяет формировать временные периоды, изменять интервалы и так далее. Изначально создавался для обеспечения высокой производительности. Наиболее важные его части сформированы на C и Cython.</p>
45
</ul><p>Проект поддерживает временные ряды. Он позволяет формировать временные периоды, изменять интервалы и так далее. Изначально создавался для обеспечения высокой производительности. Наиболее важные его части сформированы на C и Cython.</p>
46
<h2>Начало работы</h2>
46
<h2>Начало работы</h2>
47
<p>Pandas - функциональный и удобный проект для обработки данных. Далее предстоит разобраться с основами работы с ним. Для машинного обучения часто используются специальные библиотеки - Google Colab и Jupyter Notebook. Такие названия получили специализированные IDE. Они дают возможность работать с данными итеративно и пошагово. При их применении не требуется писать полноценное программное обеспечение.</p>
47
<p>Pandas - функциональный и удобный проект для обработки данных. Далее предстоит разобраться с основами работы с ним. Для машинного обучения часто используются специальные библиотеки - Google Colab и Jupyter Notebook. Такие названия получили специализированные IDE. Они дают возможность работать с данными итеративно и пошагово. При их применении не требуется писать полноценное программное обеспечение.</p>
48
<p>Рекомендуется сначала установить IDE. В них Pandas встроен по умолчанию - ничего и никуда инициализировать не придется. Остается лишь произвести импорт в исходный код.</p>
48
<p>Рекомендуется сначала установить IDE. В них Pandas встроен по умолчанию - ничего и никуда инициализировать не придется. Остается лишь произвести импорт в исходный код.</p>
49
<p>Если не использовать специализированные среды, разработчику потребуется Python выше версии 2.7. Импортирование Пандас происходит при помощи такой команды:</p>
49
<p>Если не использовать специализированные среды, разработчику потребуется Python выше версии 2.7. Импортирование Пандас происходит при помощи такой команды:</p>
50
<p> или , где pd - это официальное сокращение Pandas.</p>
50
<p> или , где pd - это официальное сокращение Pandas.</p>
51
<p>При использовании PIP необходимо воспользоваться следующей командой:</p>
51
<p>При использовании PIP необходимо воспользоваться следующей командой:</p>
52
<p>Для импорта PD и NumPy в Python-скрипт потребуется добавить такой блок кода:</p>
52
<p>Для импорта PD и NumPy в Python-скрипт потребуется добавить такой блок кода:</p>
53
<p>Связано это с тем, что PD зависит от NumPy. Соответствующая зависимость тоже должна быть импортирована в исходный код приложения. Теперь все готово к полноценному применению модуля при разработке программных продуктов разной сложности.</p>
53
<p>Связано это с тем, что PD зависит от NumPy. Соответствующая зависимость тоже должна быть импортирована в исходный код приложения. Теперь все готово к полноценному применению модуля при разработке программных продуктов разной сложности.</p>
54
<h3>Структуры данных</h3>
54
<h3>Структуры данных</h3>
55
<p>Изучаемый модуль поддерживает несколько информационных структур:</p>
55
<p>Изучаемый модуль поддерживает несколько информационных структур:</p>
56
<ol><li>Series. Выражается одномерным массивом неизменного размера. Напоминает структуру с однородными данными.</li>
56
<ol><li>Series. Выражается одномерным массивом неизменного размера. Напоминает структуру с однородными данными.</li>
57
<li>DataFrames. Двумерная табличная структуру. Поддерживает изменение размера. Столбцы в ней будут неоднородно типизированными.</li>
57
<li>DataFrames. Двумерная табличная структуру. Поддерживает изменение размера. Столбцы в ней будут неоднородно типизированными.</li>
58
<li>Panel. Трехмерный массив, который может меняться в размерах.</li>
58
<li>Panel. Трехмерный массив, который может меняться в размерах.</li>
59
</ol><p>Других вариантов у PD нет. Далее первые две структурные единицы будут изучены более подробно. Они используются в программных кодах чаще всего.</p>
59
</ol><p>Других вариантов у PD нет. Далее первые две структурные единицы будут изучены более подробно. Они используются в программных кодах чаще всего.</p>
60
<h4><em>Класс Series</em></h4>
60
<h4><em>Класс Series</em></h4>
61
<p>Series - объект, который напоминает одномерный массив. Может включать в себя любые типы данных. Часто представлен в виде столбца таблицы с последовательностями тех или иных значений. Каждый из них будет наделен индексом - номером строки.</p>
61
<p>Series - объект, который напоминает одномерный массив. Может включать в себя любые типы данных. Часто представлен в виде столбца таблицы с последовательностями тех или иных значений. Каждый из них будет наделен индексом - номером строки.</p>
62
<p>При обработке соответствующего кода на экране появится такая запись:</p>
62
<p>При обработке соответствующего кода на экране появится такая запись:</p>
63
<p>Series будет отображаться в виде таблицы с индексами компонентов. Соответствующая информация выводится в первом столбце. Второй отводится непосредственно под заданные значения.</p>
63
<p>Series будет отображаться в виде таблицы с индексами компонентов. Соответствующая информация выводится в первом столбце. Второй отводится непосредственно под заданные значения.</p>
64
<h4><em>Data Frame</em></h4>
64
<h4><em>Data Frame</em></h4>
65
<p>DataFrame - это таблица с разными типами столбцов. Представляет собой двумерную информационную структуру. Является основным типом информации в Pandas. Вокруг DataFrame строится вся дальнейшая работа.</p>
65
<p>DataFrame - это таблица с разными типами столбцов. Представляет собой двумерную информационную структуру. Является основным типом информации в Pandas. Вокруг DataFrame строится вся дальнейшая работа.</p>
66
<p>Соответствующий объект может быть представлен обычной таблицей (подобной той, что встречается в Excel), с любым количеством не только строк, но и столбцов. Внутри ее ячеек содержатся самые разные сведения:</p>
66
<p>Соответствующий объект может быть представлен обычной таблицей (подобной той, что встречается в Excel), с любым количеством не только строк, но и столбцов. Внутри ее ячеек содержатся самые разные сведения:</p>
67
<ul><li>числовые;</li>
67
<ul><li>числовые;</li>
68
<li>булевы;</li>
68
<li>булевы;</li>
69
<li>строковые и так далее.</li>
69
<li>строковые и так далее.</li>
70
</ul><p>DataFrame имеет индексы не только столбцов, но и строк. За счет подобной особенности удается сортировать и фильтровать сведения и находить нужные значения быстро и максимально комфортно.</p>
70
</ul><p>DataFrame имеет индексы не только столбцов, но и строк. За счет подобной особенности удается сортировать и фильтровать сведения и находить нужные значения быстро и максимально комфортно.</p>
71
<p>В DataFrame поддерживается жесткое кодирование, а также импорт:</p>
71
<p>В DataFrame поддерживается жесткое кодирование, а также импорт:</p>
72
<ul><li>CSV;</li>
72
<ul><li>CSV;</li>
73
<li>TSV;</li>
73
<li>TSV;</li>
74
<li>Excel-документов;</li>
74
<li>Excel-документов;</li>
75
<li>SQL-таблиц.</li>
75
<li>SQL-таблиц.</li>
76
</ul><p>Для создания соответствующего компонента допускается использование команды:</p>
76
</ul><p>Для создания соответствующего компонента допускается использование команды:</p>
77
<p>Здесь:</p>
77
<p>Здесь:</p>
78
<ul><li>data - это создание объекта из входных сведений (NumPy, series, dict и им подобные);</li>
78
<ul><li>data - это создание объекта из входных сведений (NumPy, series, dict и им подобные);</li>
79
<li>index - строковые метки;</li>
79
<li>index - строковые метки;</li>
80
<li>columns - создание подписей столбцов;</li>
80
<li>columns - создание подписей столбцов;</li>
81
<li>dtype - ссылка на тип сведений, содержащихся в каждом столбце (этот параметр не является обязательным);</li>
81
<li>dtype - ссылка на тип сведений, содержащихся в каждом столбце (этот параметр не является обязательным);</li>
82
<li>copy - копирование сведений, если они предусмотрены изначально.</li>
82
<li>copy - копирование сведений, если они предусмотрены изначально.</li>
83
</ul><p>Создание DataFrame может производиться различными способами. Пример - формирование объекта из словаря или их списков, кортежей, файла Excel.</p>
83
</ul><p>Создание DataFrame может производиться различными способами. Пример - формирование объекта из словаря или их списков, кортежей, файла Excel.</p>
84
<p>Вот пример кода, использующего список словарей для создания DataFrame:</p>
84
<p>Вот пример кода, использующего список словарей для создания DataFrame:</p>
85
<p>При обработке предложенного фрагмента система выведен на терминал/экран устройства следующую информацию:</p>
85
<p>При обработке предложенного фрагмента система выведен на терминал/экран устройства следующую информацию:</p>
86
<p>Работает код достаточно просто: сначала создается словарь, а затем в него передается в качестве аргумента метод DataFrame(). После получения тех или иных значений система выводит объект на печать в терминале.</p>
86
<p>Работает код достаточно просто: сначала создается словарь, а затем в него передается в качестве аргумента метод DataFrame(). После получения тех или иных значений система выводит объект на печать в терминале.</p>
87
<p>Индекс здесь будет отображаться в самом первом левом столбце. Он имеет метки строк. Заголовки и электронные материалы - это сама таблица. При помощи настройки индексных параметров удается создавать индексированные DataFrames.</p>
87
<p>Индекс здесь будет отображаться в самом первом левом столбце. Он имеет метки строк. Заголовки и электронные материалы - это сама таблица. При помощи настройки индексных параметров удается создавать индексированные DataFrames.</p>
88
<h5>Импорт CSV</h5>
88
<h5>Импорт CSV</h5>
89
-
<p>При создании DataFrame можно воспользоваться импортом файла CSV. Так называется текстовый документ. В нем запись материалов и значений ведется в каждой строке, разд��ляясь символом запятой.</p>
89
+
<p>При создании DataFrame можно воспользоваться импортом файла CSV. Так называется текстовый документ. В нем запись материалов и значений ведется в каждой строке, разделяясь символом запятой.</p>
90
<p>Pandas поддерживает метод read_csv. С его помощью удается считывать содержимое CSV. Соответствующая команда поддерживает несколько параметров управления импортом:</p>
90
<p>Pandas поддерживает метод read_csv. С его помощью удается считывать содержимое CSV. Соответствующая команда поддерживает несколько параметров управления импортом:</p>
91
<ol><li>Sep. Он позволяет явно указывать разделители, используемые при выгрузке материалов. По умолчанию это символ запятой. Данный параметр является полезным при нестандартных разделителях в исходном документе. Пример - когда там применяются точки с запятыми или табуляция.</li>
91
<ol><li>Sep. Он позволяет явно указывать разделители, используемые при выгрузке материалов. По умолчанию это символ запятой. Данный параметр является полезным при нестандартных разделителях в исходном документе. Пример - когда там применяются точки с запятыми или табуляция.</li>
92
<li>Dtype. При помощи этой характеристики удается явно указывать тип, используемый в столбцах. Применяется, когда автоматически определяемый формат оказывается неверным. Пример - если дата импортируется в качестве строковой переменной.</li>
92
<li>Dtype. При помощи этой характеристики удается явно указывать тип, используемый в столбцах. Применяется, когда автоматически определяемый формат оказывается неверным. Пример - если дата импортируется в качестве строковой переменной.</li>
93
</ol><p>А вот фрагмент кода, позволяющий импортировать сведения о скорости мобильного и стационарного интернета в разных странах.<a>Здесь</a>необходимо скачать исходный документ. После этого останется указать метод:</p>
93
</ol><p>А вот фрагмент кода, позволяющий импортировать сведения о скорости мобильного и стационарного интернета в разных странах.<a>Здесь</a>необходимо скачать исходный документ. После этого останется указать метод:</p>
94
<p>Чтобы увидеть DataFrame, останется вывести его на печать:</p>
94
<p>Чтобы увидеть DataFrame, останется вывести его на печать:</p>
95
<p>При работе в Jupiter Notebook и Google Collab для вывода DataFrame, а также Series, необходимо использовать команду print. Без нее модуль тоже сможет показать интересующие сведения. При написании print(df) будет потеряна табличная верстка.</p>
95
<p>При работе в Jupiter Notebook и Google Collab для вывода DataFrame, а также Series, необходимо использовать команду print. Без нее модуль тоже сможет показать интересующие сведения. При написании print(df) будет потеряна табличная верстка.</p>
96
<p>В верхней части - названия столбцов, а слева указываются индексы. В нижней части выводится детализация о количестве столбцов и строк.</p>
96
<p>В верхней части - названия столбцов, а слева указываются индексы. В нижней части выводится детализация о количестве столбцов и строк.</p>
97
<p>Полностью выводить табличку не обязательно. Для первого знакомства достаточно первых или последних пяти строчек. Чтобы воспользоваться соответствующими операциями, рекомендуется использование df.head() или df.tail() соответственно. В скобках указывается, сколько строчек выводить на экран. Этот параметр в Pandas по умолчанию равен 5.</p>
97
<p>Полностью выводить табличку не обязательно. Для первого знакомства достаточно первых или последних пяти строчек. Чтобы воспользоваться соответствующими операциями, рекомендуется использование df.head() или df.tail() соответственно. В скобках указывается, сколько строчек выводить на экран. Этот параметр в Pandas по умолчанию равен 5.</p>
98
<p><a>Здесь</a>можно увидеть больше информации об изученном модуле. А лучше программировать с его применением в Python помогут специализированные дистанционные компьютерные курсы.</p>
98
<p><a>Здесь</a>можно увидеть больше информации об изученном модуле. А лучше программировать с его применением в Python помогут специализированные дистанционные компьютерные курсы.</p>
99
<p><em>Интересуют курсы по системному анализу и не только? Огромный выбор обучающих онлайн-программ по востребованным IT-направлениям есть в</em><a><em>Otus</em></a><em>!</em></p>
99
<p><em>Интересуют курсы по системному анализу и не только? Огромный выбор обучающих онлайн-программ по востребованным IT-направлениям есть в</em><a><em>Otus</em></a><em>!</em></p>
100
100