0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?</p>
1
<p>Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?</p>
2
<h2>Решение № 1: DWH</h2>
2
<h2>Решение № 1: DWH</h2>
3
<p>Когда-то было принято складывать все имеющиеся данные в структурированные хранилища - data warehouse (<strong>DWH</strong>), а потом их анализировать. Что тут следует отметить: • бизнес-требования меняются сегодня очень быстро - быстрее, чем можно прогнозировать; • возникает сложность обработки неструктурированных данных (DWH для них - явно не лучшее решение); • хранение в DWH обходится дорого. Когда в хранилище помещается вся информация, мы и платим за всё, то есть мы платим даже за ненужную информацию.<a>А некоторые специалисты утверждают</a>, что лишь 20-35 % хранимой информации обладает реальной пользой. Таким образом мы имеем 65-80 % "паразитных" данных.</p>
3
<p>Когда-то было принято складывать все имеющиеся данные в структурированные хранилища - data warehouse (<strong>DWH</strong>), а потом их анализировать. Что тут следует отметить: • бизнес-требования меняются сегодня очень быстро - быстрее, чем можно прогнозировать; • возникает сложность обработки неструктурированных данных (DWH для них - явно не лучшее решение); • хранение в DWH обходится дорого. Когда в хранилище помещается вся информация, мы и платим за всё, то есть мы платим даже за ненужную информацию.<a>А некоторые специалисты утверждают</a>, что лишь 20-35 % хранимой информации обладает реальной пользой. Таким образом мы имеем 65-80 % "паразитных" данных.</p>
4
<h2>Решение № 2: Hadoop</h2>
4
<h2>Решение № 2: Hadoop</h2>
5
<p>Около десяти лет назад недостатки DWH были учтены, в результате чего появился Hadoop, а люди перешли к обработке неструктурированных данных посредством batch-процессинга. Это снизило расходы, но и принесло ряд минусов: • неэффективная обработка структурированных данных; • результат получается не сразу, да и стоит это недёшево.</p>
5
<p>Около десяти лет назад недостатки DWH были учтены, в результате чего появился Hadoop, а люди перешли к обработке неструктурированных данных посредством batch-процессинга. Это снизило расходы, но и принесло ряд минусов: • неэффективная обработка структурированных данных; • результат получается не сразу, да и стоит это недёшево.</p>
6
<p>Можно сказать, что если для задач очистки данных заметно дешевле Hadoop, то при построении enterprise data warehouse заметно дешевле DWH-решения.</p>
6
<p>Можно сказать, что если для задач очистки данных заметно дешевле Hadoop, то при построении enterprise data warehouse заметно дешевле DWH-решения.</p>
7
<h2>Решение № 3: Data Lake</h2>
7
<h2>Решение № 3: Data Lake</h2>
8
<p>Озеро данных берёт лучшее из двух вышеописанных подходов. В этом случае данные предварительно обрабатываются (проходят фильтрацию) посредством Hadoop’ов, далее данные помещаются в DWH. Казалось бы, проблемы решены. Но на деле оказалось не так всё радужно: •<strong>слишком долго</strong>. Типичный data lake включает в себя множество компонентов, которые ещё надо уметь связать. На практике интеграция разрозненных компонентов занимает много времени, не говоря уже о разработке и построении таких кейсов; •<strong>плохой ROI</strong>- соответственно, требуются большие инвестиции; •<strong>недостаток экспертов по администрированию</strong>. Как известно, разработчики любят разрабатывать, но очень не любят администрировать. То же самое и со стеками big data: персонал, обслуживающий эти платформы, зачастую не имеет достаточной квалификации в конкретных нишевых стеках.</p>
8
<p>Озеро данных берёт лучшее из двух вышеописанных подходов. В этом случае данные предварительно обрабатываются (проходят фильтрацию) посредством Hadoop’ов, далее данные помещаются в DWH. Казалось бы, проблемы решены. Но на деле оказалось не так всё радужно: •<strong>слишком долго</strong>. Типичный data lake включает в себя множество компонентов, которые ещё надо уметь связать. На практике интеграция разрозненных компонентов занимает много времени, не говоря уже о разработке и построении таких кейсов; •<strong>плохой ROI</strong>- соответственно, требуются большие инвестиции; •<strong>недостаток экспертов по администрированию</strong>. Как известно, разработчики любят разрабатывать, но очень не любят администрировать. То же самое и со стеками big data: персонал, обслуживающий эти платформы, зачастую не имеет достаточной квалификации в конкретных нишевых стеках.</p>
9
<h2>Фабрики по обработке данных</h2>
9
<h2>Фабрики по обработке данных</h2>
10
<p>Трендовое решение -<strong>Data Platform/data fabrics</strong>. Компонентами такой фабрики могут быть Kafka и Hadoop Spark, а также хранилище данных и пакетная обработка, которые тесно интегрированы друг с другом. Именно таковой является концепция Data Platform. Концепция экономит время для достижения результата, позволяя получать готовый кейс (допустим, для обработки антиспама и логов). Таким образом, когда компания осуществляет внедрение подобных платформ, она получает не только и не столько технологию, сколько<strong>готовые рецепты</strong>.</p>
10
<p>Трендовое решение -<strong>Data Platform/data fabrics</strong>. Компонентами такой фабрики могут быть Kafka и Hadoop Spark, а также хранилище данных и пакетная обработка, которые тесно интегрированы друг с другом. Именно таковой является концепция Data Platform. Концепция экономит время для достижения результата, позволяя получать готовый кейс (допустим, для обработки антиспама и логов). Таким образом, когда компания осуществляет внедрение подобных платформ, она получает не только и не столько технологию, сколько<strong>готовые рецепты</strong>.</p>
11
<p><em>Взаимодействие компонентов внутри Data Platform:</em></p>
11
<p><em>Взаимодействие компонентов внутри Data Platform:</em></p>
12
<p>Итак, используя Data Platform компания получает готовые рецепты. Вот их перечень: • в области<strong>Big Data</strong>: поиск возможностей на рынке, предиктивная аналитика, ad-hoc data, mining; • в сфере<strong>бизнес-аналитики</strong>: анализ операционной деятельности, озёра данных, поддержка решений, data warehousing, ad-hoc-аналитика, ETL/ELT; • в<strong>машинном обучении</strong>: нейросети, Deep learning, искусственный интеллект, распознавание образов; • в области<strong>безопасности</strong>: выявление спама в комментариях и письмах, защита от злоумышленников, fraud detection; • в<strong>ритейле и e-commerce</strong>: анализ чеков, формирование специальных предложений, внешняя монетизация, управление поставками; • в<strong>телекоммуникациях</strong>: Customer 360, обработка CDR, оптимизация расходов, предиктивная аналитика неполадок; • в сфере<strong>финансов и банковского обслуживания</strong>: онлайн- и офлайн-скоринг, fraud detection, финансовый анализ.</p>
12
<p>Итак, используя Data Platform компания получает готовые рецепты. Вот их перечень: • в области<strong>Big Data</strong>: поиск возможностей на рынке, предиктивная аналитика, ad-hoc data, mining; • в сфере<strong>бизнес-аналитики</strong>: анализ операционной деятельности, озёра данных, поддержка решений, data warehousing, ad-hoc-аналитика, ETL/ELT; • в<strong>машинном обучении</strong>: нейросети, Deep learning, искусственный интеллект, распознавание образов; • в области<strong>безопасности</strong>: выявление спама в комментариях и письмах, защита от злоумышленников, fraud detection; • в<strong>ритейле и e-commerce</strong>: анализ чеков, формирование специальных предложений, внешняя монетизация, управление поставками; • в<strong>телекоммуникациях</strong>: Customer 360, обработка CDR, оптимизация расходов, предиктивная аналитика неполадок; • в сфере<strong>финансов и банковского обслуживания</strong>: онлайн- и офлайн-скоринг, fraud detection, финансовый анализ.</p>
13
<p><em>Статья написана по материалам блога<a>MCS.Mail.ru</a>.</em></p>
13
<p><em>Статья написана по материалам блога<a>MCS.Mail.ru</a>.</em></p>
14
14