0 added
0 removed
Original
2026-01-01
Modified
2026-02-26
1
<p>В работе аналитика существенную роль играет качество данных. Часто эту важную роль описывают через<strong>принцип GIGO</strong>(<em>garbage in, garbage out</em>) - "мусор на входе, мусор на выходе". Если мы не обработаем источники данных до начала анализа, то пользы от самого анализа не будет.</p>
1
<p>В работе аналитика существенную роль играет качество данных. Часто эту важную роль описывают через<strong>принцип GIGO</strong>(<em>garbage in, garbage out</em>) - "мусор на входе, мусор на выходе". Если мы не обработаем источники данных до начала анализа, то пользы от самого анализа не будет.</p>
2
<p>Сегодня мы узнаем, как подготовить данные к дальнейшему использованию и почему это важно.</p>
2
<p>Сегодня мы узнаем, как подготовить данные к дальнейшему использованию и почему это важно.</p>
3
<h2>Что такое источник данных</h2>
3
<h2>Что такое источник данных</h2>
4
<p><strong>Источник данных</strong>- это физическая или цифровая локация, где данные хранятся в виде таблицы, файла или в другом формате.</p>
4
<p><strong>Источник данных</strong>- это физическая или цифровая локация, где данные хранятся в виде таблицы, файла или в другом формате.</p>
5
<p><strong>Таблица</strong>- это пример<strong>модели данных</strong>или<strong>логической структуры</strong>. Именно при помощи таблиц мы организуем данные, то есть моделируем их в источнике по определенной схеме. Таблица помогает иллюстрировать взаимоотношения между разными элементами и управлять данными без их искажения.</p>
5
<p><strong>Таблица</strong>- это пример<strong>модели данных</strong>или<strong>логической структуры</strong>. Именно при помощи таблиц мы организуем данные, то есть моделируем их в источнике по определенной схеме. Таблица помогает иллюстрировать взаимоотношения между разными элементами и управлять данными без их искажения.</p>
6
<p>База данных тоже считается моделью данных, потому что она состоит из множества взаимосвязанных таблиц. Кроме того, существуют такие распространенные модели:</p>
6
<p>База данных тоже считается моделью данных, потому что она состоит из множества взаимосвязанных таблиц. Кроме того, существуют такие распространенные модели:</p>
7
<ul><li>Иерархическая модель</li>
7
<ul><li>Иерархическая модель</li>
8
<li>Реляционная модель</li>
8
<li>Реляционная модель</li>
9
</ul><ul><li>Унифицированный язык моделирования (<em>UML</em>или<em>Unified Modeling Language</em>)</li>
9
</ul><ul><li>Унифицированный язык моделирования (<em>UML</em>или<em>Unified Modeling Language</em>)</li>
10
<li>Диаграмма "Сущность-связь" (<em>ERD</em>или<em>Entity-Relationship Diagram</em>)</li>
10
<li>Диаграмма "Сущность-связь" (<em>ERD</em>или<em>Entity-Relationship Diagram</em>)</li>
11
<li>Объектно-ориентированная модель</li>
11
<li>Объектно-ориентированная модель</li>
12
<li>Многомерное моделирование</li>
12
<li>Многомерное моделирование</li>
13
</ul><h3>Как работает принцип GIGO</h3>
13
</ul><h3>Как работает принцип GIGO</h3>
14
<p>Чтобы проиллюстрировать принцип GIGO, возьмем таблицу<em>Orders</em>с данными по заказам клиентов. Если интересно, можете изучить оригинал на сайте<a>Tableau Public</a>.</p>
14
<p>Чтобы проиллюстрировать принцип GIGO, возьмем таблицу<em>Orders</em>с данными по заказам клиентов. Если интересно, можете изучить оригинал на сайте<a>Tableau Public</a>.</p>
15
<p>Представим, что мы хотим изучить данные клиента по имени<em>Aaron Bergman</em>. Чистые и подготовленные данные продаж по этому клиенту выглядят так:</p>
15
<p>Представим, что мы хотим изучить данные клиента по имени<em>Aaron Bergman</em>. Чистые и подготовленные данные продаж по этому клиенту выглядят так:</p>
16
<p>Грязные данные заметно отличаются:</p>
16
<p>Грязные данные заметно отличаются:</p>
17
<p>Возьмем другой пример. Предположим, мы хотим взглянуть на продажи клиенту в разных городах. Визуализация этих данных в<em>Tableau</em>отобразит корректную сумму продаж:</p>
17
<p>Возьмем другой пример. Предположим, мы хотим взглянуть на продажи клиенту в разных городах. Визуализация этих данных в<em>Tableau</em>отобразит корректную сумму продаж:</p>
18
<p>При визуализации замусоренных данных мы получим другой результат:</p>
18
<p>При визуализации замусоренных данных мы получим другой результат:</p>
19
<p>Как видите, замусоренные данные заметно отличаются от чистых. Все дело в неправильно заполненных полях. Из-за орфографических ошибок мы видим пять городов, хотя на самом деле их три - Оклахома, Сиэтл и Арлингтон.</p>
19
<p>Как видите, замусоренные данные заметно отличаются от чистых. Все дело в неправильно заполненных полях. Из-за орфографических ошибок мы видим пять городов, хотя на самом деле их три - Оклахома, Сиэтл и Арлингтон.</p>
20
<p>Из-за этой ошибки суммы продаж сильно завышены. Значит, и общие выводы будут искажены. Чтобы избежать таких проблем, нужно заранее проверять качество данных и проводить подготовку.</p>
20
<p>Из-за этой ошибки суммы продаж сильно завышены. Значит, и общие выводы будут искажены. Чтобы избежать таких проблем, нужно заранее проверять качество данных и проводить подготовку.</p>
21
<h2>Как подготовить данные</h2>
21
<h2>Как подготовить данные</h2>
22
<p>Рассмотрим этапы подготовки:</p>
22
<p>Рассмотрим этапы подготовки:</p>
23
<ol><li>Сбор данных</li>
23
<ol><li>Сбор данных</li>
24
<li>Исследование и профилирование данных</li>
24
<li>Исследование и профилирование данных</li>
25
<li>Очистка данных</li>
25
<li>Очистка данных</li>
26
<li>Структурирование данных</li>
26
<li>Структурирование данных</li>
27
<li>Трансформация и обогащение данных</li>
27
<li>Трансформация и обогащение данных</li>
28
<li>Валидация данных и их сохранение</li>
28
<li>Валидация данных и их сохранение</li>
29
</ol><h3>Сбор данных</h3>
29
</ol><h3>Сбор данных</h3>
30
<p>Релевантные данные собираются из операционных систем, хранилищ, сайтов и прочих ресурсов. На этом этапе мы проверяем, что собранные данные хорошо подходят для целей запланированного анализа данных.</p>
30
<p>Релевантные данные собираются из операционных систем, хранилищ, сайтов и прочих ресурсов. На этом этапе мы проверяем, что собранные данные хорошо подходят для целей запланированного анализа данных.</p>
31
<p>Можно выделить два типа источников:</p>
31
<p>Можно выделить два типа источников:</p>
32
<ol><li><strong>Машинные файлы</strong>- логи интернет-трафика, логи систем и приложений, информация от сенсоров промышленного оборудования, результаты запросов к базе. Такие файлы создаются на клиентском компьютере, телефоне или другом устройстве. Доступ к ним предоставлен пользователям, зарегистрированным в системе. У машинного источника всегда есть<strong>DSN</strong>(<em>data source name</em>- имя источника данных)</li>
32
<ol><li><strong>Машинные файлы</strong>- логи интернет-трафика, логи систем и приложений, информация от сенсоров промышленного оборудования, результаты запросов к базе. Такие файлы создаются на клиентском компьютере, телефоне или другом устройстве. Доступ к ним предоставлен пользователям, зарегистрированным в системе. У машинного источника всегда есть<strong>DSN</strong>(<em>data source name</em>- имя источника данных)</li>
33
<li><strong>Файловые источники</strong>- таблицы, текстовые документы, PDF-файлы, изображения, аудио и видео. Такие файлы не прикреплены к конкретным компьютерам, приложениям, системам или пользователям. Их можно свободно распространять среди устройств. В отличие от машинных источников, у них нет DSN</li>
33
<li><strong>Файловые источники</strong>- таблицы, текстовые документы, PDF-файлы, изображения, аудио и видео. Такие файлы не прикреплены к конкретным компьютерам, приложениям, системам или пользователям. Их можно свободно распространять среди устройств. В отличие от машинных источников, у них нет DSN</li>
34
</ol><h3>Исследование данных</h3>
34
</ol><h3>Исследование данных</h3>
35
<p>Следующий шаг - изучить собранные данные (датасет). Здесь аналитик должен разобраться, какие преобразования нужно сделать с датасетом, чтобы подготовить его для конечных пользователей.</p>
35
<p>Следующий шаг - изучить собранные данные (датасет). Здесь аналитик должен разобраться, какие преобразования нужно сделать с датасетом, чтобы подготовить его для конечных пользователей.</p>
36
<p>Другими словами, на этом этапе происходит<strong>профилирование данных</strong>. Во время него аналитик идентифицируют паттерны и взаимосвязи, ищет аномалии, замечает пропущенные значения и другие проблемы, на которые надо обратить внимание.</p>
36
<p>Другими словами, на этом этапе происходит<strong>профилирование данных</strong>. Во время него аналитик идентифицируют паттерны и взаимосвязи, ищет аномалии, замечает пропущенные значения и другие проблемы, на которые надо обратить внимание.</p>
37
<h3>Очистка данных</h3>
37
<h3>Очистка данных</h3>
38
<p>Далее аналитик исправляет найденные ошибки:</p>
38
<p>Далее аналитик исправляет найденные ошибки:</p>
39
<ul><li>Дубли</li>
39
<ul><li>Дубли</li>
40
<li>Пропущенные значения</li>
40
<li>Пропущенные значения</li>
41
<li>Выбросы</li>
41
<li>Выбросы</li>
42
<li>Неверный формат данных</li>
42
<li>Неверный формат данных</li>
43
</ul><p>Исправив все ошибки, мы создаем полный и точный датасет.</p>
43
</ul><p>Исправив все ошибки, мы создаем полный и точный датасет.</p>
44
<h3>Структурирование или группировка данных</h3>
44
<h3>Структурирование или группировка данных</h3>
45
<p>Далее аналитик подстраивает чистый датасет под конкретную ситуацию.</p>
45
<p>Далее аналитик подстраивает чистый датасет под конкретную ситуацию.</p>
46
<p>Для примера представим, что мы получаем данные в формате CSV (<em>comma-separated values</em>). Мы хотим проанализировать их с помощью BI-инструментов, но сходу сделать это не получится. Чтобы BI-инструменты смогли корректно считать и использовать их, нужно конвертировать CSV в таблицу.</p>
46
<p>Для примера представим, что мы получаем данные в формате CSV (<em>comma-separated values</em>). Мы хотим проанализировать их с помощью BI-инструментов, но сходу сделать это не получится. Чтобы BI-инструменты смогли корректно считать и использовать их, нужно конвертировать CSV в таблицу.</p>
47
<p>Работать с неструктурированными данными неудобно. Например, в сырых данных о покупках одна строка может содержать информацию сразу о нескольких товарах:</p>
47
<p>Работать с неструктурированными данными неудобно. Например, в сырых данных о покупках одна строка может содержать информацию сразу о нескольких товарах:</p>
48
<p>Чтобы стало удобнее, нужно разделить товары и разместить каждый купленный продукт в отдельной строке:</p>
48
<p>Чтобы стало удобнее, нужно разделить товары и разместить каждый купленный продукт в отдельной строке:</p>
49
<p>Можно сделать данные еще понятнее. Например, человеку сложно воспринимать вот такие данные:</p>
49
<p>Можно сделать данные еще понятнее. Например, человеку сложно воспринимать вот такие данные:</p>
50
<p>Будет гораздо проще, если мы возьмем номера магазинов и покупателей и заменим их на понятные имена:</p>
50
<p>Будет гораздо проще, если мы возьмем номера магазинов и покупателей и заменим их на понятные имена:</p>
51
<p>Для этого разобьем исходные данные на три источника - таблицы<em>Shops</em>,<em>Customers</em>и<em>Products</em>:</p>
51
<p>Для этого разобьем исходные данные на три источника - таблицы<em>Shops</em>,<em>Customers</em>и<em>Products</em>:</p>
52
<h3>Трансформация и обогащение данных</h3>
52
<h3>Трансформация и обогащение данных</h3>
53
<p>В дополнение к структурированию данных, датасет часто нужно трансформировать в однородный и используемый формат.</p>
53
<p>В дополнение к структурированию данных, датасет часто нужно трансформировать в однородный и используемый формат.</p>
54
<p>Например, во время трансформации данных мы можем создать новые столбцы или удалять старые, а также агрегировать значения из уже существующих столбцов.</p>
54
<p>Например, во время трансформации данных мы можем создать новые столбцы или удалять старые, а также агрегировать значения из уже существующих столбцов.</p>
55
<h3>Валидация данных и их сохранение</h3>
55
<h3>Валидация данных и их сохранение</h3>
56
<p>На финальном шаге остается проверить содержание, полноту и точность данных.</p>
56
<p>На финальном шаге остается проверить содержание, полноту и точность данных.</p>
57
<p>Далее подготовленные данные можно использовать так, как нам нужно: например, проанализировать самостоятельно или передать коллеге.</p>
57
<p>Далее подготовленные данные можно использовать так, как нам нужно: например, проанализировать самостоятельно или передать коллеге.</p>
58
<h2>Как подключаться к источникам данных</h2>
58
<h2>Как подключаться к источникам данных</h2>
59
<p>К машинным источникам данных можно подключиться с помощью<strong>коннекторов</strong>(<em>Data Source Connectors</em>). Коннекторы запускают поток данных между приложениями, базами данных или аналитическими инструментами.</p>
59
<p>К машинным источникам данных можно подключиться с помощью<strong>коннекторов</strong>(<em>Data Source Connectors</em>). Коннекторы запускают поток данных между приложениями, базами данных или аналитическими инструментами.</p>
60
<p>Работать таким образом намного удобнее, потому что коннекторы предоставляют однородную платформу, где данные из разных приложений встречаются и взаимодействуют.</p>
60
<p>Работать таким образом намного удобнее, потому что коннекторы предоставляют однородную платформу, где данные из разных приложений встречаются и взаимодействуют.</p>
61
<p>Для примера представим, что мы отслеживаем рабочее время сотрудников через Jira и хотим создать отчет с помощью Tableau. Чтобы это сделать создадим новую книгу в Tableau и выберем, с каким источником соединиться:</p>
61
<p>Для примера представим, что мы отслеживаем рабочее время сотрудников через Jira и хотим создать отчет с помощью Tableau. Чтобы это сделать создадим новую книгу в Tableau и выберем, с каким источником соединиться:</p>
62
<p>То же самое можно сделать в Microsoft Excel:</p>
62
<p>То же самое можно сделать в Microsoft Excel:</p>
63
<h2>Выводы</h2>
63
<h2>Выводы</h2>
64
<p>В этом уроке вы узнали, что повышение качества данных - это необходимый предварительный шаг, без которого грамотная аналитика невозможна. Теперь вы умеете самостоятельно готовить данные к полноценному анализу, ведь мы изучили все этапы этого процесса - сбор, исследование, очистку, структурирование, трансформацию и валидацию.</p>
64
<p>В этом уроке вы узнали, что повышение качества данных - это необходимый предварительный шаг, без которого грамотная аналитика невозможна. Теперь вы умеете самостоятельно готовить данные к полноценному анализу, ведь мы изучили все этапы этого процесса - сбор, исследование, очистку, структурирование, трансформацию и валидацию.</p>