Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Большие данные появляются тогда, когда дешевле хранить информацию, чем выбросить её. К тому же, современный человек склонен к накоплению данных. Но информацию надо не только хранить, а ещё и обрабатывать, получая полезный результат. Сегодня в это инвестируют, что помогает оптимизировать процессы и повышать эффективность бизнеса. Так как же оптимизировать обработку Big Data?

2 <h2>Решение № 1: DWH</h2>

3 Когда-то было принято складывать все имеющиеся данные в структурированные хранилища - data warehouse (DWH), а потом их анализировать. Что тут следует отметить: • бизнес-требования меняются сегодня очень быстро - быстрее, чем можно прогнозировать; • возникает сложность обработки неструктурированных данных (DWH для них - явно не лучшее решение); • хранение в DWH обходится дорого. Когда в хранилище помещается вся информация, мы и платим за всё, то есть мы платим даже за ненужную информацию.<a>А некоторые специалисты утверждают</a>, что лишь 20-35 % хранимой информации обладает реальной пользой. Таким образом мы имеем 65-80 % "паразитных" данных.

4 <h2>Решение № 2: Hadoop</h2>

5 Около десяти лет назад недостатки DWH были учтены, в результате чего появился Hadoop, а люди перешли к обработке неструктурированных данных посредством batch-процессинга. Это снизило расходы, но и принесло ряд минусов: • неэффективная обработка структурированных данных; • результат получается не сразу, да и стоит это недёшево.

6 Можно сказать, что если для задач очистки данных заметно дешевле Hadoop, то при построении enterprise data warehouse заметно дешевле DWH-решения.

7 <h2>Решение № 3: Data Lake</h2>

8 Озеро данных берёт лучшее из двух вышеописанных подходов. В этом случае данные предварительно обрабатываются (проходят фильтрацию) посредством Hadoop’ов, далее данные помещаются в DWH. Казалось бы, проблемы решены. Но на деле оказалось не так всё радужно: •слишком долго. Типичный data lake включает в себя множество компонентов, которые ещё надо уметь связать. На практике интеграция разрозненных компонентов занимает много времени, не говоря уже о разработке и построении таких кейсов; •плохой ROI- соответственно, требуются большие инвестиции; •недостаток экспертов по администрированию. Как известно, разработчики любят разрабатывать, но очень не любят администрировать. То же самое и со стеками big data: персонал, обслуживающий эти платформы, зачастую не имеет достаточной квалификации в конкретных нишевых стеках.

9 <h2>Фабрики по обработке данных</h2>

10 Трендовое решение -Data Platform/data fabrics. Компонентами такой фабрики могут быть Kafka и Hadoop Spark, а также хранилище данных и пакетная обработка, которые тесно интегрированы друг с другом. Именно таковой является концепция Data Platform. Концепция экономит время для достижения результата, позволяя получать готовый кейс (допустим, для обработки антиспама и логов). Таким образом, когда компания осуществляет внедрение подобных платформ, она получает не только и не столько технологию, сколькоготовые рецепты.

11 Взаимодействие компонентов внутри Data Platform:

12 Итак, используя Data Platform компания получает готовые рецепты. Вот их перечень: • в областиBig Data: поиск возможностей на рынке, предиктивная аналитика, ad-hoc data, mining; • в сферебизнес-аналитики: анализ операционной деятельности, озёра данных, поддержка решений, data warehousing, ad-hoc-аналитика, ETL/ELT; • вмашинном обучении: нейросети, Deep learning, искусственный интеллект, распознавание образов; • в областибезопасности: выявление спама в комментариях и письмах, защита от злоумышленников, fraud detection; • вритейле и e-commerce: анализ чеков, формирование специальных предложений, внешняя монетизация, управление поставками; • втелекоммуникациях: Customer 360, обработка CDR, оптимизация расходов, предиктивная аналитика неполадок; • в сферефинансов и банковского обслуживания: онлайн- и офлайн-скоринг, fraud detection, финансовый анализ.

13 Статья написана по материалам блога<a>MCS.Mail.ru</a>.