HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-26
1 <p>В работе аналитика существенную роль играет качество данных. Часто эту важную роль описывают через<strong>принцип GIGO</strong>(<em>garbage in, garbage out</em>) - "мусор на входе, мусор на выходе". Если мы не обработаем источники данных до начала анализа, то пользы от самого анализа не будет.</p>
1 <p>В работе аналитика существенную роль играет качество данных. Часто эту важную роль описывают через<strong>принцип GIGO</strong>(<em>garbage in, garbage out</em>) - "мусор на входе, мусор на выходе". Если мы не обработаем источники данных до начала анализа, то пользы от самого анализа не будет.</p>
2 <p>Сегодня мы узнаем, как подготовить данные к дальнейшему использованию и почему это важно.</p>
2 <p>Сегодня мы узнаем, как подготовить данные к дальнейшему использованию и почему это важно.</p>
3 <h2>Что такое источник данных</h2>
3 <h2>Что такое источник данных</h2>
4 <p><strong>Источник данных</strong>- это физическая или цифровая локация, где данные хранятся в виде таблицы, файла или в другом формате.</p>
4 <p><strong>Источник данных</strong>- это физическая или цифровая локация, где данные хранятся в виде таблицы, файла или в другом формате.</p>
5 <p><strong>Таблица</strong>- это пример<strong>модели данных</strong>или<strong>логической структуры</strong>. Именно при помощи таблиц мы организуем данные, то есть моделируем их в источнике по определенной схеме. Таблица помогает иллюстрировать взаимоотношения между разными элементами и управлять данными без их искажения.</p>
5 <p><strong>Таблица</strong>- это пример<strong>модели данных</strong>или<strong>логической структуры</strong>. Именно при помощи таблиц мы организуем данные, то есть моделируем их в источнике по определенной схеме. Таблица помогает иллюстрировать взаимоотношения между разными элементами и управлять данными без их искажения.</p>
6 <p>База данных тоже считается моделью данных, потому что она состоит из множества взаимосвязанных таблиц. Кроме того, существуют такие распространенные модели:</p>
6 <p>База данных тоже считается моделью данных, потому что она состоит из множества взаимосвязанных таблиц. Кроме того, существуют такие распространенные модели:</p>
7 <ul><li>Иерархическая модель</li>
7 <ul><li>Иерархическая модель</li>
8 <li>Реляционная модель</li>
8 <li>Реляционная модель</li>
9 </ul><ul><li>Унифицированный язык моделирования (<em>UML</em>или<em>Unified Modeling Language</em>)</li>
9 </ul><ul><li>Унифицированный язык моделирования (<em>UML</em>или<em>Unified Modeling Language</em>)</li>
10 <li>Диаграмма "Сущность-связь" (<em>ERD</em>или<em>Entity-Relationship Diagram</em>)</li>
10 <li>Диаграмма "Сущность-связь" (<em>ERD</em>или<em>Entity-Relationship Diagram</em>)</li>
11 <li>Объектно-ориентированная модель</li>
11 <li>Объектно-ориентированная модель</li>
12 <li>Многомерное моделирование</li>
12 <li>Многомерное моделирование</li>
13 </ul><h3>Как работает принцип GIGO</h3>
13 </ul><h3>Как работает принцип GIGO</h3>
14 <p>Чтобы проиллюстрировать принцип GIGO, возьмем таблицу<em>Orders</em>с данными по заказам клиентов. Если интересно, можете изучить оригинал на сайте<a>Tableau Public</a>.</p>
14 <p>Чтобы проиллюстрировать принцип GIGO, возьмем таблицу<em>Orders</em>с данными по заказам клиентов. Если интересно, можете изучить оригинал на сайте<a>Tableau Public</a>.</p>
15 <p>Представим, что мы хотим изучить данные клиента по имени<em>Aaron Bergman</em>. Чистые и подготовленные данные продаж по этому клиенту выглядят так:</p>
15 <p>Представим, что мы хотим изучить данные клиента по имени<em>Aaron Bergman</em>. Чистые и подготовленные данные продаж по этому клиенту выглядят так:</p>
16 <p>Грязные данные заметно отличаются:</p>
16 <p>Грязные данные заметно отличаются:</p>
17 <p>Возьмем другой пример. Предположим, мы хотим взглянуть на продажи клиенту в разных городах. Визуализация этих данных в<em>Tableau</em>отобразит корректную сумму продаж:</p>
17 <p>Возьмем другой пример. Предположим, мы хотим взглянуть на продажи клиенту в разных городах. Визуализация этих данных в<em>Tableau</em>отобразит корректную сумму продаж:</p>
18 <p>При визуализации замусоренных данных мы получим другой результат:</p>
18 <p>При визуализации замусоренных данных мы получим другой результат:</p>
19 <p>Как видите, замусоренные данные заметно отличаются от чистых. Все дело в неправильно заполненных полях. Из-за орфографических ошибок мы видим пять городов, хотя на самом деле их три - Оклахома, Сиэтл и Арлингтон.</p>
19 <p>Как видите, замусоренные данные заметно отличаются от чистых. Все дело в неправильно заполненных полях. Из-за орфографических ошибок мы видим пять городов, хотя на самом деле их три - Оклахома, Сиэтл и Арлингтон.</p>
20 <p>Из-за этой ошибки суммы продаж сильно завышены. Значит, и общие выводы будут искажены. Чтобы избежать таких проблем, нужно заранее проверять качество данных и проводить подготовку.</p>
20 <p>Из-за этой ошибки суммы продаж сильно завышены. Значит, и общие выводы будут искажены. Чтобы избежать таких проблем, нужно заранее проверять качество данных и проводить подготовку.</p>
21 <h2>Как подготовить данные</h2>
21 <h2>Как подготовить данные</h2>
22 <p>Рассмотрим этапы подготовки:</p>
22 <p>Рассмотрим этапы подготовки:</p>
23 <ol><li>Сбор данных</li>
23 <ol><li>Сбор данных</li>
24 <li>Исследование и профилирование данных</li>
24 <li>Исследование и профилирование данных</li>
25 <li>Очистка данных</li>
25 <li>Очистка данных</li>
26 <li>Структурирование данных</li>
26 <li>Структурирование данных</li>
27 <li>Трансформация и обогащение данных</li>
27 <li>Трансформация и обогащение данных</li>
28 <li>Валидация данных и их сохранение</li>
28 <li>Валидация данных и их сохранение</li>
29 </ol><h3>Сбор данных</h3>
29 </ol><h3>Сбор данных</h3>
30 <p>Релевантные данные собираются из операционных систем, хранилищ, сайтов и прочих ресурсов. На этом этапе мы проверяем, что собранные данные хорошо подходят для целей запланированного анализа данных.</p>
30 <p>Релевантные данные собираются из операционных систем, хранилищ, сайтов и прочих ресурсов. На этом этапе мы проверяем, что собранные данные хорошо подходят для целей запланированного анализа данных.</p>
31 <p>Можно выделить два типа источников:</p>
31 <p>Можно выделить два типа источников:</p>
32 <ol><li><strong>Машинные файлы</strong>- логи интернет-трафика, логи систем и приложений, информация от сенсоров промышленного оборудования, результаты запросов к базе. Такие файлы создаются на клиентском компьютере, телефоне или другом устройстве. Доступ к ним предоставлен пользователям, зарегистрированным в системе. У машинного источника всегда есть<strong>DSN</strong>(<em>data source name</em>- имя источника данных)</li>
32 <ol><li><strong>Машинные файлы</strong>- логи интернет-трафика, логи систем и приложений, информация от сенсоров промышленного оборудования, результаты запросов к базе. Такие файлы создаются на клиентском компьютере, телефоне или другом устройстве. Доступ к ним предоставлен пользователям, зарегистрированным в системе. У машинного источника всегда есть<strong>DSN</strong>(<em>data source name</em>- имя источника данных)</li>
33 <li><strong>Файловые источники</strong>- таблицы, текстовые документы, PDF-файлы, изображения, аудио и видео. Такие файлы не прикреплены к конкретным компьютерам, приложениям, системам или пользователям. Их можно свободно распространять среди устройств. В отличие от машинных источников, у них нет DSN</li>
33 <li><strong>Файловые источники</strong>- таблицы, текстовые документы, PDF-файлы, изображения, аудио и видео. Такие файлы не прикреплены к конкретным компьютерам, приложениям, системам или пользователям. Их можно свободно распространять среди устройств. В отличие от машинных источников, у них нет DSN</li>
34 </ol><h3>Исследование данных</h3>
34 </ol><h3>Исследование данных</h3>
35 <p>Следующий шаг - изучить собранные данные (датасет). Здесь аналитик должен разобраться, какие преобразования нужно сделать с датасетом, чтобы подготовить его для конечных пользователей.</p>
35 <p>Следующий шаг - изучить собранные данные (датасет). Здесь аналитик должен разобраться, какие преобразования нужно сделать с датасетом, чтобы подготовить его для конечных пользователей.</p>
36 <p>Другими словами, на этом этапе происходит<strong>профилирование данных</strong>. Во время него аналитик идентифицируют паттерны и взаимосвязи, ищет аномалии, замечает пропущенные значения и другие проблемы, на которые надо обратить внимание.</p>
36 <p>Другими словами, на этом этапе происходит<strong>профилирование данных</strong>. Во время него аналитик идентифицируют паттерны и взаимосвязи, ищет аномалии, замечает пропущенные значения и другие проблемы, на которые надо обратить внимание.</p>
37 <h3>Очистка данных</h3>
37 <h3>Очистка данных</h3>
38 <p>Далее аналитик исправляет найденные ошибки:</p>
38 <p>Далее аналитик исправляет найденные ошибки:</p>
39 <ul><li>Дубли</li>
39 <ul><li>Дубли</li>
40 <li>Пропущенные значения</li>
40 <li>Пропущенные значения</li>
41 <li>Выбросы</li>
41 <li>Выбросы</li>
42 <li>Неверный формат данных</li>
42 <li>Неверный формат данных</li>
43 </ul><p>Исправив все ошибки, мы создаем полный и точный датасет.</p>
43 </ul><p>Исправив все ошибки, мы создаем полный и точный датасет.</p>
44 <h3>Структурирование или группировка данных</h3>
44 <h3>Структурирование или группировка данных</h3>
45 <p>Далее аналитик подстраивает чистый датасет под конкретную ситуацию.</p>
45 <p>Далее аналитик подстраивает чистый датасет под конкретную ситуацию.</p>
46 <p>Для примера представим, что мы получаем данные в формате CSV (<em>comma-separated values</em>). Мы хотим проанализировать их с помощью BI-инструментов, но сходу сделать это не получится. Чтобы BI-инструменты смогли корректно считать и использовать их, нужно конвертировать CSV в таблицу.</p>
46 <p>Для примера представим, что мы получаем данные в формате CSV (<em>comma-separated values</em>). Мы хотим проанализировать их с помощью BI-инструментов, но сходу сделать это не получится. Чтобы BI-инструменты смогли корректно считать и использовать их, нужно конвертировать CSV в таблицу.</p>
47 <p>Работать с неструктурированными данными неудобно. Например, в сырых данных о покупках одна строка может содержать информацию сразу о нескольких товарах:</p>
47 <p>Работать с неструктурированными данными неудобно. Например, в сырых данных о покупках одна строка может содержать информацию сразу о нескольких товарах:</p>
48 <p>Чтобы стало удобнее, нужно разделить товары и разместить каждый купленный продукт в отдельной строке:</p>
48 <p>Чтобы стало удобнее, нужно разделить товары и разместить каждый купленный продукт в отдельной строке:</p>
49 <p>Можно сделать данные еще понятнее. Например, человеку сложно воспринимать вот такие данные:</p>
49 <p>Можно сделать данные еще понятнее. Например, человеку сложно воспринимать вот такие данные:</p>
50 <p>Будет гораздо проще, если мы возьмем номера магазинов и покупателей и заменим их на понятные имена:</p>
50 <p>Будет гораздо проще, если мы возьмем номера магазинов и покупателей и заменим их на понятные имена:</p>
51 <p>Для этого разобьем исходные данные на три источника - таблицы<em>Shops</em>,<em>Customers</em>и<em>Products</em>:</p>
51 <p>Для этого разобьем исходные данные на три источника - таблицы<em>Shops</em>,<em>Customers</em>и<em>Products</em>:</p>
52 <h3>Трансформация и обогащение данных</h3>
52 <h3>Трансформация и обогащение данных</h3>
53 <p>В дополнение к структурированию данных, датасет часто нужно трансформировать в однородный и используемый формат.</p>
53 <p>В дополнение к структурированию данных, датасет часто нужно трансформировать в однородный и используемый формат.</p>
54 <p>Например, во время трансформации данных мы можем создать новые столбцы или удалять старые, а также агрегировать значения из уже существующих столбцов.</p>
54 <p>Например, во время трансформации данных мы можем создать новые столбцы или удалять старые, а также агрегировать значения из уже существующих столбцов.</p>
55 <h3>Валидация данных и их сохранение</h3>
55 <h3>Валидация данных и их сохранение</h3>
56 <p>На финальном шаге остается проверить содержание, полноту и точность данных.</p>
56 <p>На финальном шаге остается проверить содержание, полноту и точность данных.</p>
57 <p>Далее подготовленные данные можно использовать так, как нам нужно: например, проанализировать самостоятельно или передать коллеге.</p>
57 <p>Далее подготовленные данные можно использовать так, как нам нужно: например, проанализировать самостоятельно или передать коллеге.</p>
58 <h2>Как подключаться к источникам данных</h2>
58 <h2>Как подключаться к источникам данных</h2>
59 <p>К машинным источникам данных можно подключиться с помощью<strong>коннекторов</strong>(<em>Data Source Connectors</em>). Коннекторы запускают поток данных между приложениями, базами данных или аналитическими инструментами.</p>
59 <p>К машинным источникам данных можно подключиться с помощью<strong>коннекторов</strong>(<em>Data Source Connectors</em>). Коннекторы запускают поток данных между приложениями, базами данных или аналитическими инструментами.</p>
60 <p>Работать таким образом намного удобнее, потому что коннекторы предоставляют однородную платформу, где данные из разных приложений встречаются и взаимодействуют.</p>
60 <p>Работать таким образом намного удобнее, потому что коннекторы предоставляют однородную платформу, где данные из разных приложений встречаются и взаимодействуют.</p>
61 <p>Для примера представим, что мы отслеживаем рабочее время сотрудников через Jira и хотим создать отчет с помощью Tableau. Чтобы это сделать создадим новую книгу в Tableau и выберем, с каким источником соединиться:</p>
61 <p>Для примера представим, что мы отслеживаем рабочее время сотрудников через Jira и хотим создать отчет с помощью Tableau. Чтобы это сделать создадим новую книгу в Tableau и выберем, с каким источником соединиться:</p>
62 <p>То же самое можно сделать в Microsoft Excel:</p>
62 <p>То же самое можно сделать в Microsoft Excel:</p>
63 <h2>Выводы</h2>
63 <h2>Выводы</h2>
64 <p>В этом уроке вы узнали, что повышение качества данных - это необходимый предварительный шаг, без которого грамотная аналитика невозможна. Теперь вы умеете самостоятельно готовить данные к полноценному анализу, ведь мы изучили все этапы этого процесса - сбор, исследование, очистку, структурирование, трансформацию и валидацию.</p>
64 <p>В этом уроке вы узнали, что повышение качества данных - это необходимый предварительный шаг, без которого грамотная аналитика невозможна. Теперь вы умеете самостоятельно готовить данные к полноценному анализу, ведь мы изучили все этапы этого процесса - сбор, исследование, очистку, структурирование, трансформацию и валидацию.</p>