0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: big data, обработка, хранение данных</p>
1
<p>Теги: big data, обработка, хранение данных</p>
2
<p>Большие данные в наше время берутся из различных источников. Самый простой пример - рекламные и социальные сети. Но даже если ваша компания невелика и не предоставляет свои услуги миллионам пользователей, вы всё равно сможете работать с Big Data. Собрать данные можно, например, посредством<strong>веб-скрапинга</strong>. Кроме этого, существуют сервисы, предоставляющие API для доступа к своим данным. Один из примеров - Streaming API ВКонтакте. Он предоставляет доступ к новому содержимому с указанными ключевиками. По дефолту доступен только один процент всех данных, но можно попробовать запросить и больше, написав в поддержку.</p>
2
<p>Большие данные в наше время берутся из различных источников. Самый простой пример - рекламные и социальные сети. Но даже если ваша компания невелика и не предоставляет свои услуги миллионам пользователей, вы всё равно сможете работать с Big Data. Собрать данные можно, например, посредством<strong>веб-скрапинга</strong>. Кроме этого, существуют сервисы, предоставляющие API для доступа к своим данным. Один из примеров - Streaming API ВКонтакте. Он предоставляет доступ к новому содержимому с указанными ключевиками. По дефолту доступен только один процент всех данных, но можно попробовать запросить и больше, написав в поддержку.</p>
3
<p>Итак, объёмы данных растут, и происходит это быстро. Возникает вопрос - как их обработать? Для этого применяются распределённые хранилища и программы. Когда увеличивается число данных, можно добавлять новые узлы, что позволит заново не переписывать текущее решение.</p>
3
<p>Итак, объёмы данных растут, и происходит это быстро. Возникает вопрос - как их обработать? Для этого применяются распределённые хранилища и программы. Когда увеличивается число данных, можно добавлять новые узлы, что позволит заново не переписывать текущее решение.</p>
4
<p>Не менее важен вопрос и о безопасном хранении этих данных. Сегодня направление Big Data развивается очень быстро, а устоявшаяся методология по защите данных отсутствует. В результате каждая компания сама решает, как обеспечивать<strong>безопасность</strong>.</p>
4
<p>Не менее важен вопрос и о безопасном хранении этих данных. Сегодня направление Big Data развивается очень быстро, а устоявшаяся методология по защите данных отсутствует. В результате каждая компания сама решает, как обеспечивать<strong>безопасность</strong>.</p>
5
<p>Разумный шаг - удалить из кластера конфиденциальные данные типа паролей и информации о банковских картах, что упростит настройки доступа. Следующий этап - применение соответствующих административных, физических и технических мер обеспечения защиты. Требования к безопасности можно найти в стандартах типа<strong>ISO 27001</strong>. Как вариант - ограничить сотрудникам доступ к данным до уровня, который будет достаточен для выполнения поставленных рабочих задач. Не менее важно логировать взаимодействие сотрудника с данными, кроме того, следует исключить возможность делать копии данных из хранилища. Неплохим вариантом является и анонимизация данных.</p>
5
<p>Разумный шаг - удалить из кластера конфиденциальные данные типа паролей и информации о банковских картах, что упростит настройки доступа. Следующий этап - применение соответствующих административных, физических и технических мер обеспечения защиты. Требования к безопасности можно найти в стандартах типа<strong>ISO 27001</strong>. Как вариант - ограничить сотрудникам доступ к данным до уровня, который будет достаточен для выполнения поставленных рабочих задач. Не менее важно логировать взаимодействие сотрудника с данными, кроме того, следует исключить возможность делать копии данных из хранилища. Неплохим вариантом является и анонимизация данных.</p>
6
<h2>Используемые технологии</h2>
6
<h2>Используемые технологии</h2>
7
<p>Технологии, которые используются при работе с Big Data, можно условно разделить на 3 группы: 1.<strong>Для анализа данных</strong>. Используют фреймворк Apache Spark, поисковый движок Elasticsearch и библиотеку машинного обучения Scikit-learn. 2.<strong>Для сбора и хранения</strong>. Используют фреймворки Apache Hadoop и Apache Ranger, NoSQL-базы данных (HBase, Apache Cassandra), озёра данных (data lakes), а также базы данных In-memory. 3. Для<strong>визуализации</strong>применяют, к примеру, многофункциональный набор Google Chart и систему интерактивной аналитики Tableau.</p>
7
<p>Технологии, которые используются при работе с Big Data, можно условно разделить на 3 группы: 1.<strong>Для анализа данных</strong>. Используют фреймворк Apache Spark, поисковый движок Elasticsearch и библиотеку машинного обучения Scikit-learn. 2.<strong>Для сбора и хранения</strong>. Используют фреймворки Apache Hadoop и Apache Ranger, NoSQL-базы данных (HBase, Apache Cassandra), озёра данных (data lakes), а также базы данных In-memory. 3. Для<strong>визуализации</strong>применяют, к примеру, многофункциональный набор Google Chart и систему интерактивной аналитики Tableau.</p>
8
<p><em>Материал подготовлен на основании<a>статьи</a>специалистов из компании "МегаФон".</em></p>
8
<p><em>Материал подготовлен на основании<a>статьи</a>специалистов из компании "МегаФон".</em></p>
9
9