Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-21

1 <a>#статьи</a>

2 <ul><li>29 фев 2024</li>

3 <li>0</li>

4 </ul>Разбираемся в том, как работает библиотека Pandas, и проводим первый анализ данных.

5 Иллюстрация: Катя Павловская для Skillbox Media

6 Изучает Python, его библиотеки и занимается анализом данных. Любит путешествовать в горах.

7 Python используют для анализа данных и машинного обучения, подключая к нему различные библиотеки: Pandas, Matplotlib,<a>NumPy</a>, TensorFlow и другие. Каждая из них используется для решения конкретных задач.

8 Сегодня мы поговорим про Pandas: узнаем, для чего нужна эта библиотека, как импортировать её в Python, а также проанализируем свой первый датасет и выясним, в каких странах самый быстрый и самый медленный интернет.

9 Pandas - главная библиотека в Python для работы с данными. Её активно используют аналитики данных и дата-сайентисты. Библиотека была создана в 2008 году компанией AQR Capital, а в 2009 году она стала<a>проектом с открытым исходным кодом</a>с поддержкой большого комьюнити.

10 Вот для каких задач используют библиотеку.

11 Аналитика данных: продуктовая, маркетинговая и другая.Работа с любыми данными требует анализа и подготовки: необходимо удалить или заполнить пропуски, отфильтровать, отсортировать или каким-то образом изменить данные. Pandas в Python позволяет быстро выполнить все эти действия, а в большинстве случаев ещё и автоматизировать их.

12 Data science и работа с большими данными.Pandas помогает подготовить и провести первичный анализ данных, чтобы потом использовать их в машинном или глубоком обучении.

13 Статистика.Библиотека поддерживает основные статистические методы, которые необходимы для работы с данными. Например, расчёт средних значений, их распределение по квантилям и другие.

14 Для анализа данных и машинного обучения обычно используются особые инструменты:<a>Google Colab</a>или<a>Jupyter Notebook</a>. Это специализированные IDE, позволяющие работать с данными пошагово и итеративно, без необходимости создавать полноценное приложение.

15 В этой статье мы посмотрим на Google Colab, облачное решение для работы с данными, которое можно запустить в браузере на любом устройстве: десктопе, ноутбуке, планшете или даже смартфоне.

16 Скриншот: Pandas / Skillbox MediaКаждая строчка кода на скриншоте - это одно действие, результат которого Google Colab и Jupyter Notebook сразу демонстрируют пользователю. Это удобно в задачах, связанных с аналитикой и data science.

17 Устанавливать Pandas при работе с Jupyter Notebook или Google Colab не требуется. Это стандартная библиотека, которая будет доступна сразу после их запуска. Останется только импортировать её в ваш код.

18 import pandas as pdpd - общепринятое сокращение для Pandas в коде. Оно встречается в книгах, статьях и учебных курсах. Используйте его и в своих программах, чтобы не писать длинное pandas.

19 Данные в Pandas представлены в двух видах: Series и DataFrame. Разберёмся с каждым из них.

20 Series - это объект, который похож на одномерный массив и может содержать любые типы данных. Проще всего представить его как столбец таблицы с последовательностью каких-либо значений, у каждого из которых есть индекс - номер строки.

21 Создадим простой Series:

22 import pandas as pd # Импортируем библиотеку Pandas. series_example = pd.Series([4, 7, -5, 3]) # Создаём объект Series, содержащий числа. series_example # Выводим объект на экран.Теперь выведем его на экран:

23 Скриншот: Pandas / Skillbox MediaSeries отображается в виде таблицы с индексами элементов в первом столбце и значениями во втором.

24 DataFrame - основной тип данных в Pandas, вокруг которого строится вся работа. Его можно представить в виде обычной таблицы с любым количеством столбцов и строк. Внутри ячеек такой "таблицы" могут быть данные самого разного типа: числовые, булевы, строковые и так далее.

25 У DataFrame есть и индексы строк, и индексы столбцов. Это позволяет удобно сортировать и фильтровать данные, а также быстро находить нужные ячейки.

26 Создадим простой DataFrame с помощью словаря и посмотрим на его отображение:

27 import pandas as pd # Импортируем библиотеку Pandas. city = {'Город': ['Москва', 'Санкт-Петербург', 'Новосибирск', 'Екатеринбург'], 'Год основания': [1147, 1703, 1893, 1723], 'Население': [11.9, 4.9, 1.5, 1.4]} # Создаём словарь с нужной информацией о городах. df = pd.DataFrame(city) # Превращаем словарь в DataFrame, используя стандартный метод библиотеки. df # Выводим DataFrame на экран.Посмотрим на результат:

28 Скриншот: Pandas / Skillbox MediaМы видим таблицу, строки которой имеют индексы от 0 до 3, а "индексы" столбцов соответствуют их названиям. Легко заметить, что датафрейм состоит из трёх Series: Город, Год основания и Население. Оба типа индексов можно использовать для навигации по данным.

29 Pandas позволяет импортировать данные разными способами. Например, прочесть их из словаря, списка или кортежа. Самый популярный способ - это работа с файлами .csv, которые часто применяются в анализе данных. Для импорта используют команду pd.read_csv().

30 read_csv имеет несколько параметров для управления импортом:

31 <ul><li>sep позволяет явно указать разделитель, который используется в импортируемом файле. По умолчанию значение равно ,, что соответствует разделителю данных в файлах формата .csv. Этот параметр полезен при использовании нестандартных разделителей в исходном файле, например табуляции или точки с запятой;</li>

32 <li>dtype позволяет указать тип данных в столбцах после загрузки файла формата .csv. Полезно в тех случаях, когда формат данных автоматически определился неверно. Например, даты часто импортируются в виде строковых переменных, хотя для них существует отдельный тип.</li>

33 </ul>Давайте импортируем датасет с информацией о скорости мобильного и стационарного интернета в отдельных странах. Готовый датасет<a>скачиваем с Kaggle</a>. Это файл в формате .csv. Параметры для read_csv не указываем, так как наши данные уже подготовлены для анализа.

34 df = pd.read_csv('/content/Internet Speed 2022.csv')Теперь посмотрим на получившийся датафрейм:

35 dfВажно!

36 При работе в Google Colab или Jupyter Notebook для вывода DataFrame или Series на экран не используется команда print. Pandas умеет показывать данные и без неё. Если же написать print (df), то табличная вёрстка потеряется. Попробуйте вывести данные двумя способами и посмотрите на результат.

37 На экране появилась вот такая таблица:

38 Скриншот: Pandas / Skillbox MediaВ верхней части датафрейма мы видим названия столбцов: country (страна), broadband (средняя скорость интернета) и mobile (средняя скорость мобильного интернета). Слева указаны индексы - от 0 до 176. То есть всего у нас 177 строк. В нижней части таблицы Pandas отображает и эту информацию.

39 Выводить таблицу полностью не обязательно. Для знакомства с данными достаточно показать пять первых или пять последних строк. Сделать это можно с помощью df.head() или df.tail() соответственно. В скобках можно указать число строк, которое которые будут выведены. По умолчанию параметр равен 5.

40 df.head()Результат:

41 Скриншот: Pandas / Skillbox MediaТак намного удобнее. Мы можем сразу увидеть названия столбцов и тип данных в столбцах. Также в некоторых ячейках мы видим значение NaN - к нему мы вернёмся позже.

42 Теперь нам надо изучить импортированные данные. Действовать будем пошагово.

43 Шаг 1. Проверяем тип данных в таблице.Это поможет понять, в каком виде представлена информация в датасете - а иногда и найти аномалии. Например, даты могут быть сохранены в виде строк, что неудобно для последующего анализа. Проверить это можно с помощью стандартного метода:

44 df.dtypesНа экране появится таблица с обозначением типа данных в каждом столбце датафрейма:

45 Скриншот: Pandas / Skillbox MediaЧто мы видим:

46 <ul><li>столбец country представляет собой тип object. Это тип данных для строковых и смешанных значений;</li>

47 <li>столбцы broadband и mobile имеют тип данных float, то есть относятся к числам с плавающей точкой.</li>

48 </ul>Шаг 2. Быстро оцениваем данные и делаем предварительные выводы.Сделать это можно очень просто: для этого в Pandas существует специальный метод describe(). Он показывает среднее со стандартным отклонением, максимальные, минимальные значения переменных и их разделение по квантилям.

49 Посмотрим на этот метод в деле:

50 df.describe()Результат:

51 Скриншот: Pandas / Skillbox MediaПройдёмся по каждой строчке:

52 <ul><li>count - это количество заполненных строк в каждом столбце. Мы видим, что в столбце с данными о скорости мобильного интернета есть пропуски.</li>

53 <li>mean - среднее значение скорости обычного и мобильного интернета. Уже можно сделать вывод, что мобильный интернет в большинстве стран медленнее, чем кабельный.</li>

54 <li>std - стандартное отклонение. Важный статистический показатель, показывающий разброс значений.</li>

55 <li>min и max - минимальное и максимальное значения.</li>

56 <li>25%, 50% и 75% - значения скорости интернета по процентилям. Если не углубляться в статистику, то процентиль - это число, которое показывает распределение значений в выборке. Например, в выборке с мобильным интернетом 25-й процентиль показывает, что 25% от всех значений скорости интернета меньше, чем 24,4.</li>

57 </ul>Обратите внимание, что этот метод работает только для чисел. Информация для столбца с названием стран отсутствует.

58 Какой вывод делаем? Проводной интернет в большинстве стран работает быстрее, чем мобильный. При этом скорость проводного интернета в 75% случаев не превышает 110 Мбит/с, а мобильного - 69 Мбит/сек.

59 Шаг 3. Сортируем и фильтруем записи.В нашем датафрейме данные уже отсортированы от большего к меньшему по скорости проводного интернета. Попробуем найти страну с наилучшим мобильным интернетом. Для этого используем стандартный метод sort_values, который принимает два параметра:

60 <ul><li>Название столбца, по которому происходит сортировка, обязательно должно быть заключено в одинарные или двойные кавычки.</li>

61 <li>Параметр ascending= указывает на тип сортировки. Если мы хотим отсортировать значения от большего к меньшему, то параметру присваиваем False. Для сортировки от меньшего к большему используем True.</li>

62 </ul>Перейдём к коду:

63 df.sort_values('mobile', ascending=False).head()Результат:

64 Скриншот: Pandas / Skillbox MediaТеперь рейтинг стран другой - пятёрка лидеров поменялась (потому что мы отсортировали данные по другому значению). Мы выяснили, что самый быстрый мобильный интернет в ОАЭ.

65 Но есть нюанс. Если вернуться к первоначальной таблице, отсортированной по скорости проводного интернета, можно заметить, что у лидера - Монако - во втором столбце написано NaN.

66 NaN в Python указывает на отсутствие данных. Поэтому мы не знаем скорость мобильного интернета в Монако из этого датасета и не можем сделать однозначный вывод о лидерах в мире мобильной связи.

67 Попробуем отфильтровать значения, убрав из датафрейма страны с неизвестной скоростью мобильного интернета, и посмотрим на худшие по показателю страны (если оставить NaN, он будет засорять "дно" таблицы и увидеть реальные значения по самому медленному мобильному интернету будет сложновато).

68 В Pandas существуют различные способы фильтрации для удаления NaN. Мы воспользуемся методом dropna(), который удаляет все строки с пропусками. Важно, что удаляется полностью строка, содержащая NaN, а не только ячейки с пропущенными значениями в столбце с пропусками.

69 df.dropna()Результат:

70 Скриншот: Pandas / Skillbox MediaКоличество строк в датафрейме при удалении пустых данных уменьшилось до 136. Если вернуться ко второму шагу, то можно увидеть, что это соответствует количеству заполненных строк в столбце mobile в начальном датафрейме.

71 Сохраним результат в новый датафрейм и назовём его df_without_nan. Изначальный DataFrame стараемся не менять, так как он ещё может нам понадобиться.

72 df_without_nan = df.dropna()Теперь отсортируем полученные результаты по столбцу mobile - от меньшего к большему - и посмотрим на страну с самым медленным мобильным интернетом:

73 df_without_nan.sort_values('mobile', ascending=True)Результат:

74 Скриншот: Pandas / Skillbox MediaХудший мобильный интернет в Афганистане, далее с небольшим отставанием идут Палестина и Венесуэла.

75 Кроме как работать с существующим датафреймом, мы можем менять готовый датафрейм в зависимости от своих задач: добавлять новые строки, удалять существующие, агрегировать данные и так далее.

76 Вернём нашему df первоначальный вид. Загрузим csv с датасетом повторно:

77 df = pd.read_csv('/content/Internet Speed 2022.csv')Посмотрим на датафрейм:

78 dfУбедимся, что все данные на месте:

79 Скриншот: Pandas / Skillbox Media177 строк - все страны, в том числе те, данные о скорости интернета которых отсутствуют, в списке есть.

80 Добавим в наш датафрейм новую страну. Так как в списке их уже 177, пусть это будет Галактическая Республика из "Звёздных войн".

81 Для добавления информации в датафрейм используется метод concat:

82 new_country = {'country': 'Галактическая Республика', 'broadband': 1342, 'mobile': 295.45} df1 = pd.DataFrame([new_country]) new_list1 = pd.concat([df1,df], ignore_index=True)Разберём код построчно:

83 <ul><li>Сначала мы создаём словарь, который будет содержать название страны, информацию о средней скорости интернета и средней скорости мобильного интернета.</li>

84 <li>В конструкторе pd.DataFrame конвертируем словарь в датафрейм.</li>

85 <li>С помощью метода concat объединяем изначальный датафрейм с новым в new_list. Не забываем указать ignore_index=True, чтобы новая строка появилась первой.</li>

86 </ul>Проверим результат:

87 Скриншот: Pandas / Skillbox MediaВсё получилось. Галактическая Республика в нашей таблице.

88 Строки в Pandas удаляются методом drop. Давайте теперь с его помощью удалим несуществующую страну, которую мы добавили ранее в наш датафрейм:

89 new_list1.drop(0, inplace=True)В метод передаётся два параметра:

90 <ul><li>Индекс строк, которые необходимо удалить, - в нашем случае это строка с индексом 0. Чтобы удалить несколько строк, нужно передать индексы списком. Например, [0, 1, 2].</li>

91 <li>inplace=True - обнуляет индексы, чтобы у первой строки после удаления он стал равен 0.</li>

92 </ul>Запустим код и выведем датафрейм:

93 Скриншот: Pandas / Skillbox MediaГалактической Республики больше нет. Датафрейм вернулся в изначальный вид.

94 Иногда в датафрейме нужно найти определённую строку. Сделать это можно двумя способами: по индексному значению и индексу. Попробуем оба метода.

95 Фильтрация по индексному значению.Оно соответствует первому столбцу в датафрейме. В нашем случае индексные значения - это числа от 0 до 177.

96 Выведем на экран страны с индексными значениями 10 и 11:

97 new_list1.loc[[10,11]]Смотрим на результат:

98 Скриншот: Pandas / Skillbox MediaФильтрация по индексу.Он в датафрейме всегда начинается с 0. Сделаем срез стран с индексами 5-8. Для этого используется метод iloc.

99 new_list1.iloc[5:8]Смотрим на результат:

100 Скриншот: Pandas / Skillbox MediaПолучили срез списка с 6-го по 8-й объект. Обратите внимание, что индекс и индексные значения строк различаются.

101 Выведем на экран только те страны, где скорость мобильного интернета более 100 Мбит/с:

102 new_list1[new_list1['mobile'] > 100]В результате получили таблицу с 18 странами:

103 Скриншот: Pandas / Skillbox MediaВажно!

104 При использовании этого метода сохраняются индексные значения анализируемого датафрейма.

105 Агрегирование данных - это функция, которая принимает несколько отдельных значений и возвращает сводные данные.

106 Рассчитаем среднее значение скорости интернета для всех стран с помощью функции agg, передав туда поле mean:

107 new_list1['broadband'].agg(['mean'])Результат:

108 Скриншот: Pandas / Skillbox MediaСреднее значение скорости интернета по всем странам - 72,67.

109 После завершения редактирования датафрейма его можно сохранить в CSV или другом формате:

110 new_list1.to_csv (r' C:\Users\Skillbox\Desktop\country.csv')Сохранённый файл появится по указанному пути.

111 Data Science с нуля: пробуем профессии на практике за 5 дней

112 Вы разберётесь в трёх главных направлениях data science: машинном обучении, разработке на Python и визуализации данных. Решите, какая сфера вам ближе, и выполните 4 реальные задачи с данными.

113 <a>Пройти бесплатно</a>

114 <a>Попробуйте data science на бесплатном курсеПройдите курс по data science и изучите 3 направления в работе с данными. Решите, в какой сфере хотите развиваться дальше, и получите ценные подарки. Пройти курс →</a>