HTML Diff
1 added 1 removed
Original 2026-01-01
Modified 2026-03-10
1 <ul><li><a>Описание</a></li>
1 <ul><li><a>Описание</a></li>
2 <li><a>Ключевые функции</a><ul><li><a>Для чего нужен проект</a></li>
2 <li><a>Ключевые функции</a><ul><li><a>Для чего нужен проект</a></li>
3 </ul></li>
3 </ul></li>
4 <li><a>Историческая справка</a></li>
4 <li><a>Историческая справка</a></li>
5 <li><a>Ключевые возможности</a></li>
5 <li><a>Ключевые возможности</a></li>
6 <li><a>Начало работы</a><ul><li><a>Структуры данных</a><ul><li><a>Класс Series</a></li>
6 <li><a>Начало работы</a><ul><li><a>Структуры данных</a><ul><li><a>Класс Series</a></li>
7 <li><a>Data Frame</a><ul><li><a>Импорт CSV</a></li>
7 <li><a>Data Frame</a><ul><li><a>Импорт CSV</a></li>
8 </ul></li>
8 </ul></li>
9 </ul></li>
9 </ul></li>
10 </ul></li>
10 </ul></li>
11 </ul><p>Одним из наиболее популярных инструментов для системного анализа данных является Pandas. Давайте рассмотрим, какими особенностями обладает данная библиотека, для чего и как используется. Предложенная информацию будет полезна не только новичкам, но и опытным специалистам.</p>
11 </ul><p>Одним из наиболее популярных инструментов для системного анализа данных является Pandas. Давайте рассмотрим, какими особенностями обладает данная библиотека, для чего и как используется. Предложенная информацию будет полезна не только новичкам, но и опытным специалистам.</p>
12 <h2>Описание</h2>
12 <h2>Описание</h2>
13 <p>Pandas - программная библиотека, написанная на Python. Она используется для обработки и анализа данных. Работа здесь строится поверх library NumPy.</p>
13 <p>Pandas - программная библиотека, написанная на Python. Она используется для обработки и анализа данных. Работа здесь строится поверх library NumPy.</p>
14 <p>Если говорить простыми словами, Pandas - это как Excel, но мощнее. Здесь программист сможет работать с данными, объемом в тысячи и даже миллионы строк. Pandas предоставляет высокопроизводительные структуры информации, а также инструменты для их анализа.</p>
14 <p>Если говорить простыми словами, Pandas - это как Excel, но мощнее. Здесь программист сможет работать с данными, объемом в тысячи и даже миллионы строк. Pandas предоставляет высокопроизводительные структуры информации, а также инструменты для их анализа.</p>
15 <h2>Ключевые функции</h2>
15 <h2>Ключевые функции</h2>
16 <p>Pandas широко используется в разработке. Она обеспечивает простоту в рамках среды Python. Используется для:</p>
16 <p>Pandas широко используется в разработке. Она обеспечивает простоту в рамках среды Python. Используется для:</p>
17 <ul><li>сбора и очистки данных;</li>
17 <ul><li>сбора и очистки данных;</li>
18 <li>задач, связанных с анализом информации;</li>
18 <li>задач, связанных с анализом информации;</li>
19 <li>моделирования данных без переключения на специфичные для стартовой обработки языки (пример - Octave или R).</li>
19 <li>моделирования данных без переключения на специфичные для стартовой обработки языки (пример - Octave или R).</li>
20 </ul><p>Библиотека предназначается для очистки, а также первичной оценки данных по общим показателям. Пример - среднее значение, квантили и так далее.</p>
20 </ul><p>Библиотека предназначается для очистки, а также первичной оценки данных по общим показателям. Пример - среднее значение, квантили и так далее.</p>
21 <p>Pandas - это не статистический пакет, но его наборы информации применяются в виде входных в большинстве модулей анализа данных, а также при машинном обучении.</p>
21 <p>Pandas - это не статистический пакет, но его наборы информации применяются в виде входных в большинстве модулей анализа данных, а также при машинном обучении.</p>
22 <h3>Для чего нужен проект</h3>
22 <h3>Для чего нужен проект</h3>
23 <p>Pandas - это ключевая библиотека Питона, необходимая для работы с электронными материалами. Активно используется специалистами по BigDatas. Часто применяется для следующих задач:</p>
23 <p>Pandas - это ключевая библиотека Питона, необходимая для работы с электронными материалами. Активно используется специалистами по BigDatas. Часто применяется для следующих задач:</p>
24 <ol><li>Аналитика. Инструмент позволяет подготовить datas к дальнейшему использованию. Он удаляет или заполняет пропуски, проводит сортировку или вносит необходимые изменения. Обычно большую часть соответствующих процессов удается автоматизировать через изучаемый проект.</li>
24 <ol><li>Аналитика. Инструмент позволяет подготовить datas к дальнейшему использованию. Он удаляет или заполняет пропуски, проводит сортировку или вносит необходимые изменения. Обычно большую часть соответствующих процессов удается автоматизировать через изучаемый проект.</li>
25 <li>Data Science. Используется для подготовки и первичного анализа имеющихся сведений. Это необходимо для машинного/глубокого обучения.</li>
25 <li>Data Science. Используется для подготовки и первичного анализа имеющихся сведений. Это необходимо для машинного/глубокого обучения.</li>
26 <li>Статистика. В изучаемом проекте поддерживаются ключевые статистические методы. Они позволяют работать с информацией в электронном виде максимально эффективно и быстро. Пример - расчет средних значений.</li>
26 <li>Статистика. В изучаемом проекте поддерживаются ключевые статистические методы. Они позволяют работать с информацией в электронном виде максимально эффективно и быстро. Пример - расчет средних значений.</li>
27 </ol><p>Инструмент используется не только для обработки информации, но и для ее визуализации. Легко осваивается как опытными разработчиками, так и новичками.</p>
27 </ol><p>Инструмент используется не только для обработки информации, но и для ее визуализации. Легко осваивается как опытными разработчиками, так и новичками.</p>
28 <h2>Историческая справка</h2>
28 <h2>Историческая справка</h2>
29 <p>Рассматриваемый инструмент начал разрабатываться Уэсом Маккини, работающем в AQR Capital Management, в 2008 году. Он смог убедить работодателя перед увольнением разрешить опубликовать исходный код библиотеки. Так она получила открытость и свободную лицензию.</p>
29 <p>Рассматриваемый инструмент начал разрабатываться Уэсом Маккини, работающем в AQR Capital Management, в 2008 году. Он смог убедить работодателя перед увольнением разрешить опубликовать исходный код библиотеки. Так она получила открытость и свободную лицензию.</p>
30 <p>Позже, в 2012 году, к поддержке и совершенствованию продукта присоединился еще один сотрудник AQR - Чан Шэ. Он стал вторым главным разработчиком проекта. Примерно в этот момент Пандас стала набирать популярность в Python. Теперь соответствующий инструмент активно совершенствуется и дорабатывается свободными разработчиками.</p>
30 <p>Позже, в 2012 году, к поддержке и совершенствованию продукта присоединился еще один сотрудник AQR - Чан Шэ. Он стал вторым главным разработчиком проекта. Примерно в этот момент Пандас стала набирать популярность в Python. Теперь соответствующий инструмент активно совершенствуется и дорабатывается свободными разработчиками.</p>
31 <h2>Ключевые возможности</h2>
31 <h2>Ключевые возможности</h2>
32 <p>Рассматриваемый продукт для Питона обладает мощным функционалом. Он поддерживает следующие возможности:</p>
32 <p>Рассматриваемый продукт для Питона обладает мощным функционалом. Он поддерживает следующие возможности:</p>
33 <ul><li>объекты data frame для управления индексированными массивами двумерной информации;</li>
33 <ul><li>объекты data frame для управления индексированными массивами двумерной информации;</li>
34 <li>встроенные средства совмещения данных, а также способы обработки сопутствующих сведений;</li>
34 <li>встроенные средства совмещения данных, а также способы обработки сопутствующих сведений;</li>
35 <li>инструменты, необходимые для обмена электронными материалами между структурами памяти, а также всевозможными файлами и документами;</li>
35 <li>инструменты, необходимые для обмена электронными материалами между структурами памяти, а также всевозможными файлами и документами;</li>
36 <li>срезы по значениям индексов;</li>
36 <li>срезы по значениям индексов;</li>
37 <li>расширенные возможности при индексировании;</li>
37 <li>расширенные возможности при индексировании;</li>
38 <li>наличие выборки из больших объемов наборов информации;</li>
38 <li>наличие выборки из больших объемов наборов информации;</li>
39 <li>вставка, а также удаление столбцов в массиве;</li>
39 <li>вставка, а также удаление столбцов в массиве;</li>
40 <li>встроенные средства совмещения информации;</li>
40 <li>встроенные средства совмещения информации;</li>
41 <li>обработка отсутствующих сведений;</li>
41 <li>обработка отсутствующих сведений;</li>
42 <li>слияние и объединение имеющихся информационных наборов;</li>
42 <li>слияние и объединение имеющихся информационных наборов;</li>
43 <li>иерархическое индексирование, при помощи которой удается обрабатывать материалы высокой размерности в структурах с меньшей размерностью;</li>
43 <li>иерархическое индексирование, при помощи которой удается обрабатывать материалы высокой размерности в структурах с меньшей размерностью;</li>
44 <li>группировка, позволяющая выполнять трехэтапные операции типа "разделение, изменение и объединение" одновременно.</li>
44 <li>группировка, позволяющая выполнять трехэтапные операции типа "разделение, изменение и объединение" одновременно.</li>
45 </ul><p>Проект поддерживает временные ряды. Он позволяет формировать временные периоды, изменять интервалы и так далее. Изначально создавался для обеспечения высокой производительности. Наиболее важные его части сформированы на C и Cython.</p>
45 </ul><p>Проект поддерживает временные ряды. Он позволяет формировать временные периоды, изменять интервалы и так далее. Изначально создавался для обеспечения высокой производительности. Наиболее важные его части сформированы на C и Cython.</p>
46 <h2>Начало работы</h2>
46 <h2>Начало работы</h2>
47 <p>Pandas - функциональный и удобный проект для обработки данных. Далее предстоит разобраться с основами работы с ним. Для машинного обучения часто используются специальные библиотеки - Google Colab и Jupyter Notebook. Такие названия получили специализированные IDE. Они дают возможность работать с данными итеративно и пошагово. При их применении не требуется писать полноценное программное обеспечение.</p>
47 <p>Pandas - функциональный и удобный проект для обработки данных. Далее предстоит разобраться с основами работы с ним. Для машинного обучения часто используются специальные библиотеки - Google Colab и Jupyter Notebook. Такие названия получили специализированные IDE. Они дают возможность работать с данными итеративно и пошагово. При их применении не требуется писать полноценное программное обеспечение.</p>
48 <p>Рекомендуется сначала установить IDE. В них Pandas встроен по умолчанию - ничего и никуда инициализировать не придется. Остается лишь произвести импорт в исходный код.</p>
48 <p>Рекомендуется сначала установить IDE. В них Pandas встроен по умолчанию - ничего и никуда инициализировать не придется. Остается лишь произвести импорт в исходный код.</p>
49 <p>Если не использовать специализированные среды, разработчику потребуется Python выше версии 2.7. Импортирование Пандас происходит при помощи такой команды:</p>
49 <p>Если не использовать специализированные среды, разработчику потребуется Python выше версии 2.7. Импортирование Пандас происходит при помощи такой команды:</p>
50 <p> или , где pd - это официальное сокращение Pandas.</p>
50 <p> или , где pd - это официальное сокращение Pandas.</p>
51 <p>При использовании PIP необходимо воспользоваться следующей командой:</p>
51 <p>При использовании PIP необходимо воспользоваться следующей командой:</p>
52 <p>Для импорта PD и NumPy в Python-скрипт потребуется добавить такой блок кода:</p>
52 <p>Для импорта PD и NumPy в Python-скрипт потребуется добавить такой блок кода:</p>
53 <p>Связано это с тем, что PD зависит от NumPy. Соответствующая зависимость тоже должна быть импортирована в исходный код приложения. Теперь все готово к полноценному применению модуля при разработке программных продуктов разной сложности.</p>
53 <p>Связано это с тем, что PD зависит от NumPy. Соответствующая зависимость тоже должна быть импортирована в исходный код приложения. Теперь все готово к полноценному применению модуля при разработке программных продуктов разной сложности.</p>
54 <h3>Структуры данных</h3>
54 <h3>Структуры данных</h3>
55 <p>Изучаемый модуль поддерживает несколько информационных структур:</p>
55 <p>Изучаемый модуль поддерживает несколько информационных структур:</p>
56 <ol><li>Series. Выражается одномерным массивом неизменного размера. Напоминает структуру с однородными данными.</li>
56 <ol><li>Series. Выражается одномерным массивом неизменного размера. Напоминает структуру с однородными данными.</li>
57 <li>DataFrames. Двумерная табличная структуру. Поддерживает изменение размера. Столбцы в ней будут неоднородно типизированными.</li>
57 <li>DataFrames. Двумерная табличная структуру. Поддерживает изменение размера. Столбцы в ней будут неоднородно типизированными.</li>
58 <li>Panel. Трехмерный массив, который может меняться в размерах.</li>
58 <li>Panel. Трехмерный массив, который может меняться в размерах.</li>
59 </ol><p>Других вариантов у PD нет. Далее первые две структурные единицы будут изучены более подробно. Они используются в программных кодах чаще всего.</p>
59 </ol><p>Других вариантов у PD нет. Далее первые две структурные единицы будут изучены более подробно. Они используются в программных кодах чаще всего.</p>
60 <h4><em>Класс Series</em></h4>
60 <h4><em>Класс Series</em></h4>
61 <p>Series - объект, который напоминает одномерный массив. Может включать в себя любые типы данных. Часто представлен в виде столбца таблицы с последовательностями тех или иных значений. Каждый из них будет наделен индексом - номером строки.</p>
61 <p>Series - объект, который напоминает одномерный массив. Может включать в себя любые типы данных. Часто представлен в виде столбца таблицы с последовательностями тех или иных значений. Каждый из них будет наделен индексом - номером строки.</p>
62 <p>При обработке соответствующего кода на экране появится такая запись:</p>
62 <p>При обработке соответствующего кода на экране появится такая запись:</p>
63 <p>Series будет отображаться в виде таблицы с индексами компонентов. Соответствующая информация выводится в первом столбце. Второй отводится непосредственно под заданные значения.</p>
63 <p>Series будет отображаться в виде таблицы с индексами компонентов. Соответствующая информация выводится в первом столбце. Второй отводится непосредственно под заданные значения.</p>
64 <h4><em>Data Frame</em></h4>
64 <h4><em>Data Frame</em></h4>
65 <p>DataFrame - это таблица с разными типами столбцов. Представляет собой двумерную информационную структуру. Является основным типом информации в Pandas. Вокруг DataFrame строится вся дальнейшая работа.</p>
65 <p>DataFrame - это таблица с разными типами столбцов. Представляет собой двумерную информационную структуру. Является основным типом информации в Pandas. Вокруг DataFrame строится вся дальнейшая работа.</p>
66 <p>Соответствующий объект может быть представлен обычной таблицей (подобной той, что встречается в Excel), с любым количеством не только строк, но и столбцов. Внутри ее ячеек содержатся самые разные сведения:</p>
66 <p>Соответствующий объект может быть представлен обычной таблицей (подобной той, что встречается в Excel), с любым количеством не только строк, но и столбцов. Внутри ее ячеек содержатся самые разные сведения:</p>
67 <ul><li>числовые;</li>
67 <ul><li>числовые;</li>
68 <li>булевы;</li>
68 <li>булевы;</li>
69 <li>строковые и так далее.</li>
69 <li>строковые и так далее.</li>
70 </ul><p>DataFrame имеет индексы не только столбцов, но и строк. За счет подобной особенности удается сортировать и фильтровать сведения и находить нужные значения быстро и максимально комфортно.</p>
70 </ul><p>DataFrame имеет индексы не только столбцов, но и строк. За счет подобной особенности удается сортировать и фильтровать сведения и находить нужные значения быстро и максимально комфортно.</p>
71 <p>В DataFrame поддерживается жесткое кодирование, а также импорт:</p>
71 <p>В DataFrame поддерживается жесткое кодирование, а также импорт:</p>
72 <ul><li>CSV;</li>
72 <ul><li>CSV;</li>
73 <li>TSV;</li>
73 <li>TSV;</li>
74 <li>Excel-документов;</li>
74 <li>Excel-документов;</li>
75 <li>SQL-таблиц.</li>
75 <li>SQL-таблиц.</li>
76 </ul><p>Для создания соответствующего компонента допускается использование команды:</p>
76 </ul><p>Для создания соответствующего компонента допускается использование команды:</p>
77 <p>Здесь:</p>
77 <p>Здесь:</p>
78 <ul><li>data - это создание объекта из входных сведений (NumPy, series, dict и им подобные);</li>
78 <ul><li>data - это создание объекта из входных сведений (NumPy, series, dict и им подобные);</li>
79 <li>index - строковые метки;</li>
79 <li>index - строковые метки;</li>
80 <li>columns - создание подписей столбцов;</li>
80 <li>columns - создание подписей столбцов;</li>
81 <li>dtype - ссылка на тип сведений, содержащихся в каждом столбце (этот параметр не является обязательным);</li>
81 <li>dtype - ссылка на тип сведений, содержащихся в каждом столбце (этот параметр не является обязательным);</li>
82 <li>copy - копирование сведений, если они предусмотрены изначально.</li>
82 <li>copy - копирование сведений, если они предусмотрены изначально.</li>
83 </ul><p>Создание DataFrame может производиться различными способами. Пример - формирование объекта из словаря или их списков, кортежей, файла Excel.</p>
83 </ul><p>Создание DataFrame может производиться различными способами. Пример - формирование объекта из словаря или их списков, кортежей, файла Excel.</p>
84 <p>Вот пример кода, использующего список словарей для создания DataFrame:</p>
84 <p>Вот пример кода, использующего список словарей для создания DataFrame:</p>
85 <p>При обработке предложенного фрагмента система выведен на терминал/экран устройства следующую информацию:</p>
85 <p>При обработке предложенного фрагмента система выведен на терминал/экран устройства следующую информацию:</p>
86 <p>Работает код достаточно просто: сначала создается словарь, а затем в него передается в качестве аргумента метод DataFrame(). После получения тех или иных значений система выводит объект на печать в терминале.</p>
86 <p>Работает код достаточно просто: сначала создается словарь, а затем в него передается в качестве аргумента метод DataFrame(). После получения тех или иных значений система выводит объект на печать в терминале.</p>
87 <p>Индекс здесь будет отображаться в самом первом левом столбце. Он имеет метки строк. Заголовки и электронные материалы - это сама таблица. При помощи настройки индексных параметров удается создавать индексированные DataFrames.</p>
87 <p>Индекс здесь будет отображаться в самом первом левом столбце. Он имеет метки строк. Заголовки и электронные материалы - это сама таблица. При помощи настройки индексных параметров удается создавать индексированные DataFrames.</p>
88 <h5>Импорт CSV</h5>
88 <h5>Импорт CSV</h5>
89 - <p>При создании DataFrame можно воспользоваться импортом файла CSV. Так называется текстовый документ. В нем запись материалов и значений ведется в каждой строке, раздляясь символом запятой.</p>
89 + <p>При создании DataFrame можно воспользоваться импортом файла CSV. Так называется текстовый документ. В нем запись материалов и значений ведется в каждой строке, разделяясь символом запятой.</p>
90 <p>Pandas поддерживает метод read_csv. С его помощью удается считывать содержимое CSV. Соответствующая команда поддерживает несколько параметров управления импортом:</p>
90 <p>Pandas поддерживает метод read_csv. С его помощью удается считывать содержимое CSV. Соответствующая команда поддерживает несколько параметров управления импортом:</p>
91 <ol><li>Sep. Он позволяет явно указывать разделители, используемые при выгрузке материалов. По умолчанию это символ запятой. Данный параметр является полезным при нестандартных разделителях в исходном документе. Пример - когда там применяются точки с запятыми или табуляция.</li>
91 <ol><li>Sep. Он позволяет явно указывать разделители, используемые при выгрузке материалов. По умолчанию это символ запятой. Данный параметр является полезным при нестандартных разделителях в исходном документе. Пример - когда там применяются точки с запятыми или табуляция.</li>
92 <li>Dtype. При помощи этой характеристики удается явно указывать тип, используемый в столбцах. Применяется, когда автоматически определяемый формат оказывается неверным. Пример - если дата импортируется в качестве строковой переменной.</li>
92 <li>Dtype. При помощи этой характеристики удается явно указывать тип, используемый в столбцах. Применяется, когда автоматически определяемый формат оказывается неверным. Пример - если дата импортируется в качестве строковой переменной.</li>
93 </ol><p>А вот фрагмент кода, позволяющий импортировать сведения о скорости мобильного и стационарного интернета в разных странах.<a>Здесь</a>необходимо скачать исходный документ. После этого останется указать метод:</p>
93 </ol><p>А вот фрагмент кода, позволяющий импортировать сведения о скорости мобильного и стационарного интернета в разных странах.<a>Здесь</a>необходимо скачать исходный документ. После этого останется указать метод:</p>
94 <p>Чтобы увидеть DataFrame, останется вывести его на печать:</p>
94 <p>Чтобы увидеть DataFrame, останется вывести его на печать:</p>
95 <p>При работе в Jupiter Notebook и Google Collab для вывода DataFrame, а также Series, необходимо использовать команду print. Без нее модуль тоже сможет показать интересующие сведения. При написании print(df) будет потеряна табличная верстка.</p>
95 <p>При работе в Jupiter Notebook и Google Collab для вывода DataFrame, а также Series, необходимо использовать команду print. Без нее модуль тоже сможет показать интересующие сведения. При написании print(df) будет потеряна табличная верстка.</p>
96 <p>В верхней части - названия столбцов, а слева указываются индексы. В нижней части выводится детализация о количестве столбцов и строк.</p>
96 <p>В верхней части - названия столбцов, а слева указываются индексы. В нижней части выводится детализация о количестве столбцов и строк.</p>
97 <p>Полностью выводить табличку не обязательно. Для первого знакомства достаточно первых или последних пяти строчек. Чтобы воспользоваться соответствующими операциями, рекомендуется использование df.head() или df.tail() соответственно. В скобках указывается, сколько строчек выводить на экран. Этот параметр в Pandas по умолчанию равен 5.</p>
97 <p>Полностью выводить табличку не обязательно. Для первого знакомства достаточно первых или последних пяти строчек. Чтобы воспользоваться соответствующими операциями, рекомендуется использование df.head() или df.tail() соответственно. В скобках указывается, сколько строчек выводить на экран. Этот параметр в Pandas по умолчанию равен 5.</p>
98 <p><a>Здесь</a>можно увидеть больше информации об изученном модуле. А лучше программировать с его применением в Python помогут специализированные дистанционные компьютерные курсы.</p>
98 <p><a>Здесь</a>можно увидеть больше информации об изученном модуле. А лучше программировать с его применением в Python помогут специализированные дистанционные компьютерные курсы.</p>
99 <p><em>Интересуют курсы по системному анализу и не только? Огромный выбор обучающих онлайн-программ по востребованным IT-направлениям есть в</em><a><em>Otus</em></a><em>!</em></p>
99 <p><em>Интересуют курсы по системному анализу и не только? Огромный выбор обучающих онлайн-программ по востребованным IT-направлениям есть в</em><a><em>Otus</em></a><em>!</em></p>
100  
100