HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-26
1 <p>В этом курсе мы разберем библиотеку Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. После обучения вы сможете использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>
1 <p>В этом курсе мы разберем библиотеку Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. После обучения вы сможете использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>
2 <p>В этом вводном уроке мы разберем, по каким причинам аналитики используют эту библиотеку, и как выглядит типичный порядок работы с Pandas.</p>
2 <p>В этом вводном уроке мы разберем, по каким причинам аналитики используют эту библиотеку, и как выглядит типичный порядок работы с Pandas.</p>
3 <p>Чтобы организовать работу компаний и интернет-сервисов, нужны хранилища данных. Их организовывают по-разному:</p>
3 <p>Чтобы организовать работу компаний и интернет-сервисов, нужны хранилища данных. Их организовывают по-разному:</p>
4 <ul><li>Записки на бумажном носителе</li>
4 <ul><li>Записки на бумажном носителе</li>
5 <li>Набор текстовых файлов</li>
5 <li>Набор текстовых файлов</li>
6 <li>Электронные таблицы</li>
6 <li>Электронные таблицы</li>
7 <li>Базы данных</li>
7 <li>Базы данных</li>
8 </ul><p>Табличные варианты хранения информации используются чаще, поскольку информация в них структурирована. Это удобно, когда требуется проводить анализ, расследовать инциденты, периодически подводить итоги и искать нужные данные.</p>
8 </ul><p>Табличные варианты хранения информации используются чаще, поскольку информация в них структурирована. Это удобно, когда требуется проводить анализ, расследовать инциденты, периодически подводить итоги и искать нужные данные.</p>
9 <p>Для проектов с небольшим объемом производимых транзакций достаточно популярных средств работы с электронными таблицами. Это могут быть:</p>
9 <p>Для проектов с небольшим объемом производимых транзакций достаточно популярных средств работы с электронными таблицами. Это могут быть:</p>
10 <ul><li>Десктопные приложения: Microsoft Excel, LibreOffice, OfficeSuite</li>
10 <ul><li>Десктопные приложения: Microsoft Excel, LibreOffice, OfficeSuite</li>
11 <li>Облачные решения: Google Sheets</li>
11 <li>Облачные решения: Google Sheets</li>
12 </ul><p>В последнее время количество производимых операций и число пользователей или клиентов растет. Поэтому хранить данные в электронных таблицах становится накладным по следующим причинам:</p>
12 </ul><p>В последнее время количество производимых операций и число пользователей или клиентов растет. Поэтому хранить данные в электронных таблицах становится накладным по следующим причинам:</p>
13 <ul><li>Увеличение объема необходимой памяти для хранения</li>
13 <ul><li>Увеличение объема необходимой памяти для хранения</li>
14 <li>Недостаточная скорость записи данных</li>
14 <li>Недостаточная скорость записи данных</li>
15 <li>Увеличение времени на чтение и обработку данных</li>
15 <li>Увеличение времени на чтение и обработку данных</li>
16 </ul><p>В таких случаях на практике используют реляционные системы управления базами данных - СУБД. Часто их называют просто базами данных. Наиболее популярные из них: PostgreSQL, MySQL, SQL Server.</p>
16 </ul><p>В таких случаях на практике используют реляционные системы управления базами данных - СУБД. Часто их называют просто базами данных. Наиболее популярные из них: PostgreSQL, MySQL, SQL Server.</p>
17 <p>Для аналитика базы данных - это инструмент хранения большого количества данных в виде набора таблиц. Многие операции с электронными таблицами также реализуемы в базах данных, но с использованием особого языка - SQL.</p>
17 <p>Для аналитика базы данных - это инструмент хранения большого количества данных в виде набора таблиц. Многие операции с электронными таблицами также реализуемы в базах данных, но с использованием особого языка - SQL.</p>
18 <p>Рост технологий анализа данных и машинного обучения подтолкнул многие компании к пересмотру подходов к хранению данных. Некоторые из них полностью перешли на базы данных, в некоторых часть данных осталась в виде электронных таблиц и документов. В последнем случае для анализа требуется широкий спектр инструментов.</p>
18 <p>Рост технологий анализа данных и машинного обучения подтолкнул многие компании к пересмотру подходов к хранению данных. Некоторые из них полностью перешли на базы данных, в некоторых часть данных осталась в виде электронных таблиц и документов. В последнем случае для анализа требуется широкий спектр инструментов.</p>
19 <p>Попытки создания универсального способа для анализа табличных данных привели к созданию библиотеки Pandas.</p>
19 <p>Попытки создания универсального способа для анализа табличных данных привели к созданию библиотеки Pandas.</p>
20 <p>Широкое распространение библиотека Pandas получила по ряду причин:</p>
20 <p>Широкое распространение библиотека Pandas получила по ряду причин:</p>
21 <ul><li>Написана на популярном языке для анализа данных и машинного обучения - Python</li>
21 <ul><li>Написана на популярном языке для анализа данных и машинного обучения - Python</li>
22 <li>Использует в основе библиотеку научных и быстрых вычислений - Numpy</li>
22 <li>Использует в основе библиотеку научных и быстрых вычислений - Numpy</li>
23 <li>Работает с широким спектром типов входных данных: csv, xsl, xslx, json</li>
23 <li>Работает с широким спектром типов входных данных: csv, xsl, xslx, json</li>
24 <li>Подключается напрямую к базам данных</li>
24 <li>Подключается напрямую к базам данных</li>
25 <li>Имеет высокоуровневый интерфейс для преобразований данных и аналитики</li>
25 <li>Имеет высокоуровневый интерфейс для преобразований данных и аналитики</li>
26 </ul><h2>Типичный порядок работы с библиотекой Pandas</h2>
26 </ul><h2>Типичный порядок работы с библиотекой Pandas</h2>
27 <p>Рассмотрим последовательность действий аналитика при работе с данными. Она содержит несколько ключевых шагов:</p>
27 <p>Рассмотрим последовательность действий аналитика при работе с данными. Она содержит несколько ключевых шагов:</p>
28 <ul><li>Чтение исходных данных</li>
28 <ul><li>Чтение исходных данных</li>
29 <li>Анализ данных</li>
29 <li>Анализ данных</li>
30 <li>Обработка данных</li>
30 <li>Обработка данных</li>
31 <li>Сохранение результатов анализа и обработки исходных данных</li>
31 <li>Сохранение результатов анализа и обработки исходных данных</li>
32 </ul><p>Одним из распространенных типов данных является csv - comma separated values. Это текстовые данные, в которых названия и значения разделяются запятой, точкой с запятой или табуляцией.</p>
32 </ul><p>Одним из распространенных типов данных является csv - comma separated values. Это текстовые данные, в которых названия и значения разделяются запятой, точкой с запятой или табуляцией.</p>
33 <p>Для примера рассмотрим файл data/Shop_orders.csv со значениями продаж четырех магазинов за одну неделю. Значения разделены запятой:</p>
33 <p>Для примера рассмотрим файл data/Shop_orders.csv со значениями продаж четырех магазинов за одну неделю. Значения разделены запятой:</p>
34 <p>Для работы с данными импортируем модуль Pandas и воспользуемся нужным методом чтения:</p>
34 <p>Для работы с данными импортируем модуль Pandas и воспользуемся нужным методом чтения:</p>
35 <p>Помимо пути к файлу необходимо указать колонку, которую считаем за индекс. В нашем случае это нулевая колонка - Weekday.</p>
35 <p>Помимо пути к файлу необходимо указать колонку, которую считаем за индекс. В нашем случае это нулевая колонка - Weekday.</p>
36 <p>Для обзора считанных данных воспользуемся методом head(), который покажет первые пять строк данных:</p>
36 <p>Для обзора считанных данных воспользуемся методом head(), который покажет первые пять строк данных:</p>
37 <p>Посмотрим на основные статистические показатели:</p>
37 <p>Посмотрим на основные статистические показатели:</p>
38 <p>Одним методом удалось посмотреть среднее значение и отклонение от него, минимальное и максимальное значения и ряд персентильных значений.</p>
38 <p>Одним методом удалось посмотреть среднее значение и отклонение от него, минимальное и максимальное значения и ряд персентильных значений.</p>
39 <p>Также одним методом можно достать средние значения по каждому магазину:</p>
39 <p>Также одним методом можно достать средние значения по каждому магазину:</p>
40 <p>Остановимся в подготовке данных на центрировании значений продаж по каждому магазину. Вычтем из значений продаж среднее для данного магазина:</p>
40 <p>Остановимся в подготовке данных на центрировании значений продаж по каждому магазину. Вычтем из значений продаж среднее для данного магазина:</p>
41 <p>Остается сохранить полученный результат:</p>
41 <p>Остается сохранить полученный результат:</p>
42 <p>В директории с исходным файлом теперь лежит преобразованный вариант с подготовленными данными. Работа аналитика завершена.</p>
42 <p>В директории с исходным файлом теперь лежит преобразованный вариант с подготовленными данными. Работа аналитика завершена.</p>
43 <h2>Выводы</h2>
43 <h2>Выводы</h2>
44 <p>В рамках данного курса рассматривается библиотека Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. Большое количество поддерживаемых типов данных и функций для их обработки, высокая скорость работы и дружелюбный интерфейс выделяют ее среди конкурентов.</p>
44 <p>В рамках данного курса рассматривается библиотека Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. Большое количество поддерживаемых типов данных и функций для их обработки, высокая скорость работы и дружелюбный интерфейс выделяют ее среди конкурентов.</p>
45 <p>Чтобы освоить основные навыки работы с данной библиотекой, предлагаем пройти несколько шагов:</p>
45 <p>Чтобы освоить основные навыки работы с данной библиотекой, предлагаем пройти несколько шагов:</p>
46 <ol><li>Понять основной порядок работы с данными</li>
46 <ol><li>Понять основной порядок работы с данными</li>
47 <li>Узнать про интерфейсы чтения и записи данных</li>
47 <li>Узнать про интерфейсы чтения и записи данных</li>
48 <li>Поработать с индексированием</li>
48 <li>Поработать с индексированием</li>
49 <li>Научиться фильтровать значения в таблицах</li>
49 <li>Научиться фильтровать значения в таблицах</li>
50 <li>Применить функции для обработки строк и столбцов</li>
50 <li>Применить функции для обработки строк и столбцов</li>
51 <li>Построить сложные агрегации и сводные таблицы</li>
51 <li>Построить сложные агрегации и сводные таблицы</li>
52 <li>Объединить несколько таблиц в одну</li>
52 <li>Объединить несколько таблиц в одну</li>
53 </ol><p>После этих тем вы сможете уверенно использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>
53 </ol><p>После этих тем вы сможете уверенно использовать инструментарий библиотеки Pandas в подготовке и анализе данных.</p>