0 added
0 removed
Original
2026-01-01
Modified
2026-02-26
1
<p>В этом уроке мы познакомимся с агрегацией данных и узнаем, зачем она нужна. Агрегация - важная тема для аналитика данных. Она позволяет собрать значимые статистические показатели, такие как сумму, минимум, максимум, среднее. С помощью агрегации мы собираем статистику по части данных и изображаем эту часть данных в виде одной точки на графике.</p>
1
<p>В этом уроке мы познакомимся с агрегацией данных и узнаем, зачем она нужна. Агрегация - важная тема для аналитика данных. Она позволяет собрать значимые статистические показатели, такие как сумму, минимум, максимум, среднее. С помощью агрегации мы собираем статистику по части данных и изображаем эту часть данных в виде одной точки на графике.</p>
2
<p>В уроке мы создадим таблицу подневных продаж и построим линейный график.</p>
2
<p>В уроке мы создадим таблицу подневных продаж и построим линейный график.</p>
3
<h2>Что такое агрегация и зачем она нужна</h2>
3
<h2>Что такое агрегация и зачем она нужна</h2>
4
<p>Представим, что мы - аналитик в отделе продаж сети магазинов. У нас есть набор данных о транзакциях в виде таблицы. В ней отображается дата покупки товара, наименование товара и стоимость.</p>
4
<p>Представим, что мы - аналитик в отделе продаж сети магазинов. У нас есть набор данных о транзакциях в виде таблицы. В ней отображается дата покупки товара, наименование товара и стоимость.</p>
5
<p>Таблица выглядит так:</p>
5
<p>Таблица выглядит так:</p>
6
<p><strong>sales</strong></p>
6
<p><strong>sales</strong></p>
7
<p><a>ссылка на DB Fiddle</a>с этим датасетом.</p>
7
<p><a>ссылка на DB Fiddle</a>с этим датасетом.</p>
8
<p>Отделу продаж необходимо узнать, в какие дни недели продажи максимальны, и есть ли сильные колебания продаж. Эта информация поможет скорректировать маркетинговую стратегию.</p>
8
<p>Отделу продаж необходимо узнать, в какие дни недели продажи максимальны, и есть ли сильные колебания продаж. Эта информация поможет скорректировать маркетинговую стратегию.</p>
9
<p>Как аналитику нам нужно построить суммарные продажи в каждый день - составить таблицу подневных продаж. Но такая таблица будет содержать 500 строк. Поэтому проанализировать максимальные продажи по таблице будет сложно. По ней не будет понятно, как меняются продажи.</p>
9
<p>Как аналитику нам нужно построить суммарные продажи в каждый день - составить таблицу подневных продаж. Но такая таблица будет содержать 500 строк. Поэтому проанализировать максимальные продажи по таблице будет сложно. По ней не будет понятно, как меняются продажи.</p>
10
<p>Чтобы отобразить динамику продаж, таблицу визуализируют с помощью графиков. Графики позволяют оценить изменения подневных продаж, видеть тренды, падения и взлеты продаж, а также находить в данных аномалии.</p>
10
<p>Чтобы отобразить динамику продаж, таблицу визуализируют с помощью графиков. Графики позволяют оценить изменения подневных продаж, видеть тренды, падения и взлеты продаж, а также находить в данных аномалии.</p>
11
<p>Однако в таблице нет суммарных продаж по дням, есть только транзакции. Чтобы визуально представить подневные продажи, используются агрегации.</p>
11
<p>Однако в таблице нет суммарных продаж по дням, есть только транзакции. Чтобы визуально представить подневные продажи, используются агрегации.</p>
12
<p><strong>Агрегация</strong>- сбор одного статистического показателя по определенной части данных и преобразование этой части данных в одно значение. Примеры статистических показателей: минимум, максимум, среднее, сумма. В SQL для этого есть агрегационные функции: min, max, avg, sum.</p>
12
<p><strong>Агрегация</strong>- сбор одного статистического показателя по определенной части данных и преобразование этой части данных в одно значение. Примеры статистических показателей: минимум, максимум, среднее, сумма. В SQL для этого есть агрегационные функции: min, max, avg, sum.</p>
13
<p>Например, мы хотим построить линейный график подневных продаж. Если попробуем построить все значения по таблице выше, то получим такую картину:</p>
13
<p>Например, мы хотим построить линейный график подневных продаж. Если попробуем построить все значения по таблице выше, то получим такую картину:</p>
14
<p>На этом рисунке мы построили график продаж по четырем точкам, где каждая точка - одна транзакция.</p>
14
<p>На этом рисунке мы построили график продаж по четырем точкам, где каждая точка - одна транзакция.</p>
15
<p>Если мы агрегируем данные и посчитаем суммарную прибыль по каждому из дней, мы получим такой график:</p>
15
<p>Если мы агрегируем данные и посчитаем суммарную прибыль по каждому из дней, мы получим такой график:</p>
16
<p>Мы построили линейный график по агрегированной таблице суммарных подневных продаж. Мы видим, что изменились форма графика и его значения.</p>
16
<p>Мы построили линейный график по агрегированной таблице суммарных подневных продаж. Мы видим, что изменились форма графика и его значения.</p>
17
<p>Агрегации особенно полезны, когда мы работаем с витринами на большое количество событий. Если мы хотим визуализировать подневные продажи, то агрегация превращает все транзакции за день в одно значение и выдает меньшее количество строк. Каждая строка в таблице после агрегации - это суммарная прибыль за каждый день.</p>
17
<p>Агрегации особенно полезны, когда мы работаем с витринами на большое количество событий. Если мы хотим визуализировать подневные продажи, то агрегация превращает все транзакции за день в одно значение и выдает меньшее количество строк. Каждая строка в таблице после агрегации - это суммарная прибыль за каждый день.</p>
18
<p>Перейдем к практике и превратим таблицу продаж в таблицу подневных продаж с помощью агрегации. Мы будем считать сумму всех продаж за каждый отдельный день.</p>
18
<p>Перейдем к практике и превратим таблицу продаж в таблицу подневных продаж с помощью агрегации. Мы будем считать сумму всех продаж за каждый отдельный день.</p>
19
<h2>Как агрегировать данные о продажах</h2>
19
<h2>Как агрегировать данные о продажах</h2>
20
<p>Сагрегируем витрину продаж в таблицу подневных продаж. Мы будем использовать базу данных sales_visualization. В базе данных есть одна таблица sales. Напишем SQL-запрос и посмотрим, что в ней содержится:</p>
20
<p>Сагрегируем витрину продаж в таблицу подневных продаж. Мы будем использовать базу данных sales_visualization. В базе данных есть одна таблица sales. Напишем SQL-запрос и посмотрим, что в ней содержится:</p>
21
<p><strong>sales</strong></p>
21
<p><strong>sales</strong></p>
22
<p><a>Ссылка на таблицу</a></p>
22
<p><a>Ссылка на таблицу</a></p>
23
<p>Мы написали запрос, чтобы увидеть содержание таблицы sales. В таблице 501 строка.</p>
23
<p>Мы написали запрос, чтобы увидеть содержание таблицы sales. В таблице 501 строка.</p>
24
<p>Теперь агрегируем продажи: посчитаем суммарные продажи в каждый из дней.</p>
24
<p>Теперь агрегируем продажи: посчитаем суммарные продажи в каждый из дней.</p>
25
<p>После агрегации мы получили такую таблицу:</p>
25
<p>После агрегации мы получили такую таблицу:</p>
26
<p><strong>daily_sales</strong></p>
26
<p><strong>daily_sales</strong></p>
27
<p><a>Ссылка на таблицу</a></p>
27
<p><a>Ссылка на таблицу</a></p>
28
<p>Здесь представлена таблица из двух колонок: дата и суммарные продажи в эту дату.</p>
28
<p>Здесь представлена таблица из двух колонок: дата и суммарные продажи в эту дату.</p>
29
<p>Скопируем агрегированную таблицу в Google Sheets и заменим в столбце sum_sales все точки на запятые. Выбираем Правка -> Найти и заменить.</p>
29
<p>Скопируем агрегированную таблицу в Google Sheets и заменим в столбце sum_sales все точки на запятые. Выбираем Правка -> Найти и заменить.</p>
30
<p>Теперь построим линейный график подневных продаж:</p>
30
<p>Теперь построим линейный график подневных продаж:</p>
31
<p>Мы построили линейный график по агрегированной таблице подневных продаж. По нему видно, что колебания продаж существуют всегда, но продажи поднялись в августе 2017 года по сравнению с июлем. Это наблюдение можно использовать для дальнейшего исследования причины всплеска покупок в августе.</p>
31
<p>Мы построили линейный график по агрегированной таблице подневных продаж. По нему видно, что колебания продаж существуют всегда, но продажи поднялись в августе 2017 года по сравнению с июлем. Это наблюдение можно использовать для дальнейшего исследования причины всплеска покупок в августе.</p>
32
<p>Построим для сравнения линейный график по полной таблице продаж. Скопируем исходную таблицу sales в Google Sheets и построим линейный график по ней. Для построения возьмем только столбцы order_date и sales. Как и в случае прошлой таблицей заменим все точки в sales на запятые:</p>
32
<p>Построим для сравнения линейный график по полной таблице продаж. Скопируем исходную таблицу sales в Google Sheets и построим линейный график по ней. Для построения возьмем только столбцы order_date и sales. Как и в случае прошлой таблицей заменим все точки в sales на запятые:</p>
33
<p>Мы видим, что форма графика изменилась. По такому графику сложнее определить закономерности в данных.</p>
33
<p>Мы видим, что форма графика изменилась. По такому графику сложнее определить закономерности в данных.</p>
34
<h2>Выводы</h2>
34
<h2>Выводы</h2>
35
<p>Мы изучили, что такое агрегация данных и почему она важна. Мы агрегировали данные о продажах в таблицу подневных продаж и построили линейный график в Google Sheets.</p>
35
<p>Мы изучили, что такое агрегация данных и почему она важна. Мы агрегировали данные о продажах в таблицу подневных продаж и построили линейный график в Google Sheets.</p>
36
<p>Агрегация играет важную роль в аналитике данных. С помощью агрегации вы сможете представлять данные в сокращенном виде, собирая статистики по части данных. Агрегация нередко пригодится в работе для выявления статистических показателей и построения отчетов.</p>
36
<p>Агрегация играет важную роль в аналитике данных. С помощью агрегации вы сможете представлять данные в сокращенном виде, собирая статистики по части данных. Агрегация нередко пригодится в работе для выявления статистических показателей и построения отчетов.</p>