0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: big data, методы, dataops, средства реализации</p>
1
<p>Теги: big data, методы, dataops, средства реализации</p>
2
<p>Как и в случае с<strong>DevOps</strong>, когда разработка и эксплуатация, по сути, интегрированы в единый процесс взаимодействия специалистов по разработке кода, тестированию, развертыванию и поддержке, концепция<strong>DataOps</strong>тоже реализует идею по непрерывной интеграции, доставке и обработке данных. Для этого в проектах<strong>Big Data</strong>применяют: - Agile-методы (Scrum, Kanban и их разновидности); - средства управления версиями (тот же Git); - командные системы управления проектами; - технологии контейнеризации и виртуализации (Kubernetes, Docker, Rocket и пр.), плюс разнообразные решения для управляемого конвейера данных.</p>
2
<p>Как и в случае с<strong>DevOps</strong>, когда разработка и эксплуатация, по сути, интегрированы в единый процесс взаимодействия специалистов по разработке кода, тестированию, развертыванию и поддержке, концепция<strong>DataOps</strong>тоже реализует идею по непрерывной интеграции, доставке и обработке данных. Для этого в проектах<strong>Big Data</strong>применяют: - Agile-методы (Scrum, Kanban и их разновидности); - средства управления версиями (тот же Git); - командные системы управления проектами; - технологии контейнеризации и виртуализации (Kubernetes, Docker, Rocket и пр.), плюс разнообразные решения для управляемого конвейера данных.</p>
3
<h2>Конвейер данных</h2>
3
<h2>Конвейер данных</h2>
4
<p>Для бесперебойной работы конвейера данных для Data-Driven company (иными словами -- для цифрового предприятия) его IT-инфраструктура должна обеспечивать ряд процессов. Перечислим их:</p>
4
<p>Для бесперебойной работы конвейера данных для Data-Driven company (иными словами -- для цифрового предприятия) его IT-инфраструктура должна обеспечивать ряд процессов. Перечислим их:</p>
5
<ul><li><strong>оркестрация информационных потоков</strong>- подразумевается движение больших данных по маршрутной карте с сопутствующим описанием всех источников данных, а также модели представления и интеграции этих данных. Кроме этого, описываются шаги процесса анализа данных. Для решения вышеописанных задач подходят такие инструменты, как<strong>Apache Oozie</strong>(это планировщик процессов заданий Apache Hadoop),<strong>DataKitchen</strong>(это платформа DataOps-поддержки полного цикла аналитической обработки -- сокращает сроки подготовки и доставки данных необходимого качества),<strong>BMC Control-M</strong>(известное решение по автоматизации пакетной обработки),<strong>Reflow</strong>(это уже система инкрементальной обработки различных данных в облаке посредством произвольных программ, которые упакованы в контейнеры Docker);</li>
5
<ul><li><strong>оркестрация информационных потоков</strong>- подразумевается движение больших данных по маршрутной карте с сопутствующим описанием всех источников данных, а также модели представления и интеграции этих данных. Кроме этого, описываются шаги процесса анализа данных. Для решения вышеописанных задач подходят такие инструменты, как<strong>Apache Oozie</strong>(это планировщик процессов заданий Apache Hadoop),<strong>DataKitchen</strong>(это платформа DataOps-поддержки полного цикла аналитической обработки -- сокращает сроки подготовки и доставки данных необходимого качества),<strong>BMC Control-M</strong>(известное решение по автоматизации пакетной обработки),<strong>Reflow</strong>(это уже система инкрементальной обработки различных данных в облаке посредством произвольных программ, которые упакованы в контейнеры Docker);</li>
6
<li><strong>автоматизированное тестирование/обеспечение качества данных</strong>- речь идет о проверке и очистке информации на каждом этапе обработки данных. Тут можно применять такие инструменты, как<strong>ICEDQ</strong>(программный софт для автоматизации тестирования в контексте работы с ETL-хранилищами/средствами миграции данных), а также<strong>Naveego</strong>(представляет собой облачную платформу по построению информационных витрин и панелей, главная цель которой -- мониторинг состояния данных);</li>
6
<li><strong>автоматизированное тестирование/обеспечение качества данных</strong>- речь идет о проверке и очистке информации на каждом этапе обработки данных. Тут можно применять такие инструменты, как<strong>ICEDQ</strong>(программный софт для автоматизации тестирования в контексте работы с ETL-хранилищами/средствами миграции данных), а также<strong>Naveego</strong>(представляет собой облачную платформу по построению информационных витрин и панелей, главная цель которой -- мониторинг состояния данных);</li>
7
<li><strong>автоматическое распределение</strong>- это непрерывное перемещение кода/конфигураций по всем этапам<strong>CRISP-DM</strong>, начиная с постановки задачи с точки зрения бизнеса, заканчивая внедрением. В данном случае будут полезны классические DevOps-инструменты, тот же Jenkins, обеспечивающий непрерывную поставку программного обеспечения с автоконтролем всех существующих этапов жизненного цикла ПО, начиная с написания кода, заканчивая автоматическим тестированием и развертыванием в соответствующих эксплуатационных средах;</li>
7
<li><strong>автоматическое распределение</strong>- это непрерывное перемещение кода/конфигураций по всем этапам<strong>CRISP-DM</strong>, начиная с постановки задачи с точки зрения бизнеса, заканчивая внедрением. В данном случае будут полезны классические DevOps-инструменты, тот же Jenkins, обеспечивающий непрерывную поставку программного обеспечения с автоконтролем всех существующих этапов жизненного цикла ПО, начиная с написания кода, заканчивая автоматическим тестированием и развертыванием в соответствующих эксплуатационных средах;</li>
8
<li><strong>управление "песочницами" и развертывание моделей данных</strong>- подразумевается формирование воспроизводимых сред по работе с данными посредством DevOps: это и бесшовная интеграция, и ускорение процессов по извлечению данных для бизнеса, и разработка, и развертывание программных приложений и аналитических моделей (DSFlow, Domino, Open Data Group);</li>
8
<li><strong>управление "песочницами" и развертывание моделей данных</strong>- подразумевается формирование воспроизводимых сред по работе с данными посредством DevOps: это и бесшовная интеграция, и ускорение процессов по извлечению данных для бизнеса, и разработка, и развертывание программных приложений и аналитических моделей (DSFlow, Domino, Open Data Group);</li>
9
<li><strong>виртуализация данных/управление тестовыми данными</strong>-- сюда же следует включить защиту данных и мониторинг их производительности. Среди инструментов можно отметить<strong>Delphix</strong>и<strong>Redgate</strong>;</li>
9
<li><strong>виртуализация данных/управление тестовыми данными</strong>-- сюда же следует включить защиту данных и мониторинг их производительности. Среди инструментов можно отметить<strong>Delphix</strong>и<strong>Redgate</strong>;</li>
10
<li><strong>интеграция и унификация данных</strong>, включая использование Machine Learning. Инструменты: Tamr, Switchboard Software;</li>
10
<li><strong>интеграция и унификация данных</strong>, включая использование Machine Learning. Инструменты: Tamr, Switchboard Software;</li>
11
<li><strong>мониторинг и управление производительностью облачных и локальных решений</strong>- речь идет о наблюдении за текущими процессами по хранению и обработке больших данных, а также о выявлении аномалий. В этом случае среди инструментов нужно выделить<strong>SelectStar</strong>(служит для мониторинга БД),<strong>MapR</strong>(представляет собой конвергентную платформу по работе с Big Data, которая объединяет инструменты реалтайм-аналитики и операционные бизнес-приложения),<strong>Unravel</strong>(средство по управлению производительностью и по работе с программными приложениями и платформами Big Data),<strong>Quobole</strong>(представляет собой облачную платформу Вig Data as a Service).</li>
11
<li><strong>мониторинг и управление производительностью облачных и локальных решений</strong>- речь идет о наблюдении за текущими процессами по хранению и обработке больших данных, а также о выявлении аномалий. В этом случае среди инструментов нужно выделить<strong>SelectStar</strong>(служит для мониторинга БД),<strong>MapR</strong>(представляет собой конвергентную платформу по работе с Big Data, которая объединяет инструменты реалтайм-аналитики и операционные бизнес-приложения),<strong>Unravel</strong>(средство по управлению производительностью и по работе с программными приложениями и платформами Big Data),<strong>Quobole</strong>(представляет собой облачную платформу Вig Data as a Service).</li>
12
</ul><p><em>По материалам https://www.osp.ru/.</em></p>
12
</ul><p><em>По материалам https://www.osp.ru/.</em></p>
13
13