Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-26

1 <p>Pandas - это библиотека на языке программирования Python, предназначенная для анализа данных и работы с табличными данными. Она особенно удобна для выполнения различных операций с данными: фильтрации, группировки, агрегации и других.</p>

2 <h2>Содержание</h2>

3 <ul><li><a>Основные структуры данных в Pandas</a></li>

4 <li><a>Пример использования Pandas</a></li>

5 <li><a>Заключение</a></li>

6 </ul><h2>Основные структуры данных в Pandas</h2>

7 <p>Основные структуры данных в Pandas - это DataFrame и Series. Они позволяют обрабатывать данные эффективно и интуитивно понятно.</p>

8 <h3>Series</h3>

9 <p>Series - это одномерный массив данных, который может содержать любой тип данных (целые числа, строки, числа с плавающей точкой, объекты Python и т. д.). Каждому элементу в Series соответствует метка, которая называется индексом. По умолчанию, если индекс не задан явно, он автоматически создается как последовательность целых чисел 0, 1, 2, ... и до n-1, где n - количество элементов в Series.</p>

10 <p>Основные операции с Series:</p>

11 <ul><li>Выборка данных по их индексу или с использованием срезов (slices).</li>

12 <li>Фильтрация данных с помощью булевых выражений.</li>

13 <li>Агрегация с использованием функций sum(), mean(), max() и других.</li>

14 </ul><h3>DataFrame</h3>

15 <p>DataFrame - это двумерная структура данных, похожая на таблицу в SQL или на лист в Excel. DataFrame поддерживает столбцы различных типов данных, что очень удобно для задач по обработке данных, включая статистический анализ, очистку данных, а также их визуализацию.</p>

16 <p>Основные операции с DataFrame:</p>

17 <ul><li>Выборка данных в столбцах по именам или строки по индексу.</li>

18 <li>Фильтрация и преобразование данных.</li>

19 <li>Группировка с помощью метода groupby() по одному или нескольким столбцам.</li>

20 <li>Слияние подобно тому, как это происходит в SQL.</li>

21 <li>Изменение структуры таблицы, добавление и удаление столбцов, изменение индексации и многое другое.</li>

22 </ul><h2>Пример использования Pandas</h2>

23 <p>Рассмотрим простой пример, который демонстрирует эти операции. Допустим, в базе данных собраны данные людей из разных городов, разного возраста. Вот что можно делать с этими данными с помощью Pandas.</p>

24 <h3>Просмотр данных</h3>

25 <ul><li>df.head(n). Позволяет просмотреть первые n строк DataFrame. По умолчанию n равно 5, но можно указать любое число для просмотра.</li>

26 <li>df.tail(n). Аналогично методу head, но показывает последние n строк. Это полезно для быстрой проверки того, какие данные добавлены в конец DataFrame.</li>

27 </ul><h3>Выборка данных</h3>

28 <ul><li>Выбор столбца по имени: df['Column_Name'] возвращает Series, содержащий данные указанного столбца.</li>

29 <li>Выбор нескольких столбцов: df[['Column_Name1', 'Column_Name2']] вернет новый DataFrame только с указанными столбцами.</li>

30 <li>Выбор строки по индексу: df.iloc[index] используется для получения строки по числовому индексу. Например, df.iloc[0] вернет первую строку DataFrame как Series.</li>

31 <li>Выбор по метке: df.loc[label] позволяет выбрать строку по метке индекса. Если индекс представляет собой дату, можно использовать df.loc['2021-01-01'].</li>

32 </ul><h3>Фильтрация</h3>

33 <ul><li>Условная фильтрация: df[df['Age'] > 25] вернет новый DataFrame, содержащий только те строки, где значение в столбце Age больше 25. Можно комбинировать условия, используя операторы & (и) и | (или).</li>

34 </ul><h3>Группировка и агрегация</h3>

35 <ul><li>df.groupby('Column_Name'). Этот метод используется для группировки данных по одному или нескольким столбцам. Например, df.groupby('City') создает объект GroupBy, который можно использовать для применения агрегирующих функций.</li>

36 <li>Агрегирующие функции. После группировки можно применять функции, такие как mean(), sum(), max(), min() и т. д. Например, df.groupby('City').mean() вычислит средние значения для каждой группы.</li>

37 </ul><h3>Сохранение данных</h3>

38 <ul><li>df.to_csv('filename.csv'). Этот метод сохраняет DataFrame в файл формата CSV. Можно указать дополнительные параметры, например index=False, чтобы не включать индекс в файл.</li>

39 <li>Другие форматы. DataFrame также можно сохранить в другом формате, например Excel (df.to_excel('filename.xlsx')), JSON (df.to_json('filename.json')), SQL (df.to_sql('table_name', connection_object)) и многих других.</li>

40 </ul><p>В нашем примере, создав DataFrame, можно отфильтровать данные, выделив только людей младше 25 лет, затем сгруппировать эти данные и сохранить.</p>

41 <h2>Заключение</h2>

42 <p>Pandas - это прекрасный инструмент для работы с данными, который используется в Data Science, финансовом анализе, исследовании и других областях. Благодаря широкому набору функций можно легко обрабатывать, анализировать и визуализировать данные в удобной форме.</p>