0 added
0 removed
Original
2026-01-01
Modified
2026-02-26
1
<p>В этом курсе мы разберем библиотеку Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. После обучения вы сможете использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>
1
<p>В этом курсе мы разберем библиотеку Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. После обучения вы сможете использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>
2
<p>В этом вводном уроке мы разберем, по каким причинам аналитики используют эту библиотеку, и как выглядит типичный порядок работы с Pandas.</p>
2
<p>В этом вводном уроке мы разберем, по каким причинам аналитики используют эту библиотеку, и как выглядит типичный порядок работы с Pandas.</p>
3
<p>Чтобы организовать работу компаний и интернет-сервисов, нужны хранилища данных. Их организовывают по-разному:</p>
3
<p>Чтобы организовать работу компаний и интернет-сервисов, нужны хранилища данных. Их организовывают по-разному:</p>
4
<ul><li>Записки на бумажном носителе</li>
4
<ul><li>Записки на бумажном носителе</li>
5
<li>Набор текстовых файлов</li>
5
<li>Набор текстовых файлов</li>
6
<li>Электронные таблицы</li>
6
<li>Электронные таблицы</li>
7
<li>Базы данных</li>
7
<li>Базы данных</li>
8
</ul><p>Табличные варианты хранения информации используются чаще, поскольку информация в них структурирована. Это удобно, когда требуется проводить анализ, расследовать инциденты, периодически подводить итоги и искать нужные данные.</p>
8
</ul><p>Табличные варианты хранения информации используются чаще, поскольку информация в них структурирована. Это удобно, когда требуется проводить анализ, расследовать инциденты, периодически подводить итоги и искать нужные данные.</p>
9
<p>Для проектов с небольшим объемом производимых транзакций достаточно популярных средств работы с электронными таблицами. Это могут быть:</p>
9
<p>Для проектов с небольшим объемом производимых транзакций достаточно популярных средств работы с электронными таблицами. Это могут быть:</p>
10
<ul><li>Десктопные приложения: Microsoft Excel, LibreOffice, OfficeSuite</li>
10
<ul><li>Десктопные приложения: Microsoft Excel, LibreOffice, OfficeSuite</li>
11
<li>Облачные решения: Google Sheets</li>
11
<li>Облачные решения: Google Sheets</li>
12
</ul><p>В последнее время количество производимых операций и число пользователей или клиентов растет. Поэтому хранить данные в электронных таблицах становится накладным по следующим причинам:</p>
12
</ul><p>В последнее время количество производимых операций и число пользователей или клиентов растет. Поэтому хранить данные в электронных таблицах становится накладным по следующим причинам:</p>
13
<ul><li>Увеличение объема необходимой памяти для хранения</li>
13
<ul><li>Увеличение объема необходимой памяти для хранения</li>
14
<li>Недостаточная скорость записи данных</li>
14
<li>Недостаточная скорость записи данных</li>
15
<li>Увеличение времени на чтение и обработку данных</li>
15
<li>Увеличение времени на чтение и обработку данных</li>
16
</ul><p>В таких случаях на практике используют реляционные системы управления базами данных - СУБД. Часто их называют просто базами данных. Наиболее популярные из них: PostgreSQL, MySQL, SQL Server.</p>
16
</ul><p>В таких случаях на практике используют реляционные системы управления базами данных - СУБД. Часто их называют просто базами данных. Наиболее популярные из них: PostgreSQL, MySQL, SQL Server.</p>
17
<p>Для аналитика базы данных - это инструмент хранения большого количества данных в виде набора таблиц. Многие операции с электронными таблицами также реализуемы в базах данных, но с использованием особого языка - SQL.</p>
17
<p>Для аналитика базы данных - это инструмент хранения большого количества данных в виде набора таблиц. Многие операции с электронными таблицами также реализуемы в базах данных, но с использованием особого языка - SQL.</p>
18
<p>Рост технологий анализа данных и машинного обучения подтолкнул многие компании к пересмотру подходов к хранению данных. Некоторые из них полностью перешли на базы данных, в некоторых часть данных осталась в виде электронных таблиц и документов. В последнем случае для анализа требуется широкий спектр инструментов.</p>
18
<p>Рост технологий анализа данных и машинного обучения подтолкнул многие компании к пересмотру подходов к хранению данных. Некоторые из них полностью перешли на базы данных, в некоторых часть данных осталась в виде электронных таблиц и документов. В последнем случае для анализа требуется широкий спектр инструментов.</p>
19
<p>Попытки создания универсального способа для анализа табличных данных привели к созданию библиотеки Pandas.</p>
19
<p>Попытки создания универсального способа для анализа табличных данных привели к созданию библиотеки Pandas.</p>
20
<p>Широкое распространение библиотека Pandas получила по ряду причин:</p>
20
<p>Широкое распространение библиотека Pandas получила по ряду причин:</p>
21
<ul><li>Написана на популярном языке для анализа данных и машинного обучения - Python</li>
21
<ul><li>Написана на популярном языке для анализа данных и машинного обучения - Python</li>
22
<li>Использует в основе библиотеку научных и быстрых вычислений - Numpy</li>
22
<li>Использует в основе библиотеку научных и быстрых вычислений - Numpy</li>
23
<li>Работает с широким спектром типов входных данных: csv, xsl, xslx, json</li>
23
<li>Работает с широким спектром типов входных данных: csv, xsl, xslx, json</li>
24
<li>Подключается напрямую к базам данных</li>
24
<li>Подключается напрямую к базам данных</li>
25
<li>Имеет высокоуровневый интерфейс для преобразований данных и аналитики</li>
25
<li>Имеет высокоуровневый интерфейс для преобразований данных и аналитики</li>
26
</ul><h2>Типичный порядок работы с библиотекой Pandas</h2>
26
</ul><h2>Типичный порядок работы с библиотекой Pandas</h2>
27
<p>Рассмотрим последовательность действий аналитика при работе с данными. Она содержит несколько ключевых шагов:</p>
27
<p>Рассмотрим последовательность действий аналитика при работе с данными. Она содержит несколько ключевых шагов:</p>
28
<ul><li>Чтение исходных данных</li>
28
<ul><li>Чтение исходных данных</li>
29
<li>Анализ данных</li>
29
<li>Анализ данных</li>
30
<li>Обработка данных</li>
30
<li>Обработка данных</li>
31
<li>Сохранение результатов анализа и обработки исходных данных</li>
31
<li>Сохранение результатов анализа и обработки исходных данных</li>
32
</ul><p>Одним из распространенных типов данных является csv - comma separated values. Это текстовые данные, в которых названия и значения разделяются запятой, точкой с запятой или табуляцией.</p>
32
</ul><p>Одним из распространенных типов данных является csv - comma separated values. Это текстовые данные, в которых названия и значения разделяются запятой, точкой с запятой или табуляцией.</p>
33
<p>Для примера рассмотрим файл data/Shop_orders.csv со значениями продаж четырех магазинов за одну неделю. Значения разделены запятой:</p>
33
<p>Для примера рассмотрим файл data/Shop_orders.csv со значениями продаж четырех магазинов за одну неделю. Значения разделены запятой:</p>
34
<p>Для работы с данными импортируем модуль Pandas и воспользуемся нужным методом чтения:</p>
34
<p>Для работы с данными импортируем модуль Pandas и воспользуемся нужным методом чтения:</p>
35
<p>Помимо пути к файлу необходимо указать колонку, которую считаем за индекс. В нашем случае это нулевая колонка - Weekday.</p>
35
<p>Помимо пути к файлу необходимо указать колонку, которую считаем за индекс. В нашем случае это нулевая колонка - Weekday.</p>
36
<p>Для обзора считанных данных воспользуемся методом head(), который покажет первые пять строк данных:</p>
36
<p>Для обзора считанных данных воспользуемся методом head(), который покажет первые пять строк данных:</p>
37
<p>Посмотрим на основные статистические показатели:</p>
37
<p>Посмотрим на основные статистические показатели:</p>
38
<p>Одним методом удалось посмотреть среднее значение и отклонение от него, минимальное и максимальное значения и ряд персентильных значений.</p>
38
<p>Одним методом удалось посмотреть среднее значение и отклонение от него, минимальное и максимальное значения и ряд персентильных значений.</p>
39
<p>Также одним методом можно достать средние значения по каждому магазину:</p>
39
<p>Также одним методом можно достать средние значения по каждому магазину:</p>
40
<p>Остановимся в подготовке данных на центрировании значений продаж по каждому магазину. Вычтем из значений продаж среднее для данного магазина:</p>
40
<p>Остановимся в подготовке данных на центрировании значений продаж по каждому магазину. Вычтем из значений продаж среднее для данного магазина:</p>
41
<p>Остается сохранить полученный результат:</p>
41
<p>Остается сохранить полученный результат:</p>
42
<p>В директории с исходным файлом теперь лежит преобразованный вариант с подготовленными данными. Работа аналитика завершена.</p>
42
<p>В директории с исходным файлом теперь лежит преобразованный вариант с подготовленными данными. Работа аналитика завершена.</p>
43
<h2>Выводы</h2>
43
<h2>Выводы</h2>
44
<p>В рамках данного курса рассматривается библиотека Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. Большое количество поддерживаемых типов данных и функций для их обработки, высокая скорость работы и дружелюбный интерфейс выделяют ее среди конкурентов.</p>
44
<p>В рамках данного курса рассматривается библиотека Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. Большое количество поддерживаемых типов данных и функций для их обработки, высокая скорость работы и дружелюбный интерфейс выделяют ее среди конкурентов.</p>
45
<p>Чтобы освоить основные навыки работы с данной библиотекой, предлагаем пройти несколько шагов:</p>
45
<p>Чтобы освоить основные навыки работы с данной библиотекой, предлагаем пройти несколько шагов:</p>
46
<ol><li>Понять основной порядок работы с данными</li>
46
<ol><li>Понять основной порядок работы с данными</li>
47
<li>Узнать про интерфейсы чтения и записи данных</li>
47
<li>Узнать про интерфейсы чтения и записи данных</li>
48
<li>Поработать с индексированием</li>
48
<li>Поработать с индексированием</li>
49
<li>Научиться фильтровать значения в таблицах</li>
49
<li>Научиться фильтровать значения в таблицах</li>
50
<li>Применить функции для обработки строк и столбцов</li>
50
<li>Применить функции для обработки строк и столбцов</li>
51
<li>Построить сложные агрегации и сводные таблицы</li>
51
<li>Построить сложные агрегации и сводные таблицы</li>
52
<li>Объединить несколько таблиц в одну</li>
52
<li>Объединить несколько таблиц в одну</li>
53
</ol><p>После этих тем вы сможете уверенно использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>
53
</ol><p>После этих тем вы сможете уверенно использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>