HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-26
1 <p>В библиотеке Pandas есть инструменты под разные задачи. Для анализа табличных данных существует определенная последовательность шагов и используемых решений. Их можно встретить практически в любом проекте. В этом уроке мы разберем, как решать определенные задачи с использованием методов библиотеки Pandas.</p>
1 <p>В библиотеке Pandas есть инструменты под разные задачи. Для анализа табличных данных существует определенная последовательность шагов и используемых решений. Их можно встретить практически в любом проекте. В этом уроке мы разберем, как решать определенные задачи с использованием методов библиотеки Pandas.</p>
2 <h2>Шаги для работы с библиотекой Pandas</h2>
2 <h2>Шаги для работы с библиотекой Pandas</h2>
3 <p>Аналитику важно уметь пользоваться инструментами библиотеки Pandas для решения следующих задач:</p>
3 <p>Аналитику важно уметь пользоваться инструментами библиотеки Pandas для решения следующих задач:</p>
4 <ul><li>Чтение данных из файловой системы</li>
4 <ul><li>Чтение данных из файловой системы</li>
5 <li>Первичный анализ данных</li>
5 <li>Первичный анализ данных</li>
6 <li>Трансформация данных: исправление пропусков и некорректных значений, извлечение из данных аналитических показателей</li>
6 <li>Трансформация данных: исправление пропусков и некорректных значений, извлечение из данных аналитических показателей</li>
7 <li>Запись результатов обратно в файловую систему</li>
7 <li>Запись результатов обратно в файловую систему</li>
8 </ul><p>Разберем каждую ситуацию подробнее.</p>
8 </ul><p>Разберем каждую ситуацию подробнее.</p>
9 <h3>Чтение данных из файловой системы</h3>
9 <h3>Чтение данных из файловой системы</h3>
10 <p>Обычно для хранения табличных данных используют формат csv. Также могут встречаться форматы xls и json. Для чтения данных из файловой системы в Pandas есть набор методов под разные типы данных.</p>
10 <p>Обычно для хранения табличных данных используют формат csv. Также могут встречаться форматы xls и json. Для чтения данных из файловой системы в Pandas есть набор методов под разные типы данных.</p>
11 <p>Все методы первым параметром ожидают путь к файлу. Можно конфигурировать различные сценарии чтения. В нашем случае мы указываем, что колонка, в которой хранятся значения индексов строк, идет первой по счету. Напомним, что в программировании счет начинается с нуля:</p>
11 <p>Все методы первым параметром ожидают путь к файлу. Можно конфигурировать различные сценарии чтения. В нашем случае мы указываем, что колонка, в которой хранятся значения индексов строк, идет первой по счету. Напомним, что в программировании счет начинается с нуля:</p>
12 <p>Для работы с табличными данными в Pandas реализован особый тип данных - DataFrame. Это не просто массив хранимых значений, а структура с особой формой хранения индексов строк и столбцов.</p>
12 <p>Для работы с табличными данными в Pandas реализован особый тип данных - DataFrame. Это не просто массив хранимых значений, а структура с особой формой хранения индексов строк и столбцов.</p>
13 <p>На практике ошибка в процессе чтения может и не возникнуть. При этом данные могут считаться некорректно или вовсе не быть прочитанными. После чтения данных полезно провести проверку. Для просмотра достаточно воспользоваться методом head(). Он выводит название столбцов и значения первых пяти строк:</p>
13 <p>На практике ошибка в процессе чтения может и не возникнуть. При этом данные могут считаться некорректно или вовсе не быть прочитанными. После чтения данных полезно провести проверку. Для просмотра достаточно воспользоваться методом head(). Он выводит название столбцов и значения первых пяти строк:</p>
14 <p>В этом примере мы считали данные кликов кнопки покупки для разных магазинов за некоторый период времени.</p>
14 <p>В этом примере мы считали данные кликов кнопки покупки для разных магазинов за некоторый период времени.</p>
15 <p>Чтобы посмотреть последние строки таблицы, воспользуемся методом tail():</p>
15 <p>Чтобы посмотреть последние строки таблицы, воспользуемся методом tail():</p>
16 <h3>Первичный анализ данных</h3>
16 <h3>Первичный анализ данных</h3>
17 <p>Для первичного анализа данных используется метод info(). Он показывает количество считанных строк, непустых значений в каждом из столбцов и тип хранимых в них данных:</p>
17 <p>Для первичного анализа данных используется метод info(). Он показывает количество считанных строк, непустых значений в каждом из столбцов и тип хранимых в них данных:</p>
18 <p>В таблице тип каждой колонки данных указан в столбце Dtype. В данном случае все колонки типа float64 - числа с плавающей запятой. В столбце Non-Null Count указано количество непустых ячеек в каждой колонке. По этим значениям можно судить о наличии пропусков в данных. В колонке SHOP1 26 непустых значений из 28, получается, в ней два пропуска.</p>
18 <p>В таблице тип каждой колонки данных указан в столбце Dtype. В данном случае все колонки типа float64 - числа с плавающей запятой. В столбце Non-Null Count указано количество непустых ячеек в каждой колонке. По этим значениям можно судить о наличии пропусков в данных. В колонке SHOP1 26 непустых значений из 28, получается, в ней два пропуска.</p>
19 <p>Чтобы получить статистические показатели числовых значений, используем метод describe(). С его помощью можно по каждому столбцу увидеть средние и отклонения от них, минимумы и максимумы, персентильные значения:</p>
19 <p>Чтобы получить статистические показатели числовых значений, используем метод describe(). С его помощью можно по каждому столбцу увидеть средние и отклонения от них, минимумы и максимумы, персентильные значения:</p>
20 <p>Иногда нужно проанализировать наличие тех или иных столбцов. Но их может быть довольно много. Чтобы получить названия всех столбцов, нужно обратиться к атрибуту columns датафрейма:</p>
20 <p>Иногда нужно проанализировать наличие тех или иных столбцов. Но их может быть довольно много. Чтобы получить названия всех столбцов, нужно обратиться к атрибуту columns датафрейма:</p>
21 <p>Этот атрибут можно изменять. Так можно переименовывать столбцы, если это необходимо:</p>
21 <p>Этот атрибут можно изменять. Так можно переименовывать столбцы, если это необходимо:</p>
22 <p>Наглядное представление данных может упростить их анализ. В Pandas встроены методы визуализации данных на базе библиотеки Matplotlib. Чтобы визуализировать изменения значений в определенном столбце, воспользуемся методом plot():</p>
22 <p>Наглядное представление данных может упростить их анализ. В Pandas встроены методы визуализации данных на базе библиотеки Matplotlib. Чтобы визуализировать изменения значений в определенном столбце, воспользуемся методом plot():</p>
23 <p>На рисунке видны выбросы в данных. Нужно понять причины их возникновения и постараться исправить.</p>
23 <p>На рисунке видны выбросы в данных. Нужно понять причины их возникновения и постараться исправить.</p>
24 <h3>Трансформация данных</h3>
24 <h3>Трансформация данных</h3>
25 <p>У библиотеки Pandas много функций, чтобы обрабатывать и трансформировать данные. Часто используются заполнения пропусков и исправление ошибок. В нашем примере есть пропущенные и отрицательные значения. Для дальнейшего анализа они могут нам помешать, поэтому исправим это:</p>
25 <p>У библиотеки Pandas много функций, чтобы обрабатывать и трансформировать данные. Часто используются заполнения пропусков и исправление ошибок. В нашем примере есть пропущенные и отрицательные значения. Для дальнейшего анализа они могут нам помешать, поэтому исправим это:</p>
26 <p>Подготовка данных выполнена. Добавим аналитической информации: столбец со средними показателями кликов за день:</p>
26 <p>Подготовка данных выполнена. Добавим аналитической информации: столбец со средними показателями кликов за день:</p>
27 <h3>Запись результатов в файловую систему</h3>
27 <h3>Запись результатов в файловую систему</h3>
28 <p>Теперь нам нужно сохранить результаты. Форматы файлов для хранения также могут быть различными. При этом интерфейс методов один и тот же:</p>
28 <p>Теперь нам нужно сохранить результаты. Форматы файлов для хранения также могут быть различными. При этом интерфейс методов один и тот же:</p>
29 <h2>Выводы</h2>
29 <h2>Выводы</h2>
30 <p>Для работы с данными аналитики придерживаются определенной последовательности действий. Она включает в себя чтение данных, их первичный анализ, исправление некорректных значений, статистический анализ и запись полученных результатов. Без них не обходится практически ни один проект, поэтому важно уметь работать с инструментами, которые позволяют их выполнять. Библиотека Pandas предоставляет такие методы. В этом уроке мы разобрали случаи их использования на практических примерах.</p>
30 <p>Для работы с данными аналитики придерживаются определенной последовательности действий. Она включает в себя чтение данных, их первичный анализ, исправление некорректных значений, статистический анализ и запись полученных результатов. Без них не обходится практически ни один проект, поэтому важно уметь работать с инструментами, которые позволяют их выполнять. Библиотека Pandas предоставляет такие методы. В этом уроке мы разобрали случаи их использования на практических примерах.</p>