Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: big data, data engineer, дата-инженер, бигдата, обработка больших данных, hadoop

2 Как известно,Data Engineerявляется специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируетсяBig Dataвообще? И какими навыками должен обладать человек, который решил стать дата-инженером.

3 Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы: 1)для сбора и хранения данных(БД, "облака"); 2)для анализа данных(проверка гипотез, A/B-тестирование и т. п.); 3)для визуального представления данных(графики, таблицы и т. д.).

4 Расскажем подробнее о некоторых наиболее важных технологиях.

5 <h3>1. Сбор и хранение данных:</h3>

6 -Apache Hadoop. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь "слонёнок" Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов; -Apache Ranger. Данный фреймворк обеспечивает безопасность данных в Hadoop; -базы данных NoSQL. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных; -Data Lakes(так называемые "озёра данных"). Речь идёт о неструктурированных хранилищах для большого количества "сырых" данных, которые не подвергались каким-нибудь изменениям перед сохранением; -базы данных In-memory. Это БД, использующие в качестве основного хранилища оперативную память компьютера.

7 <h3>2. Анализ данных:</h3>

8 -Apache Spark. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop; -Scikit-learn. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python; -Elasticsearch. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.

9 <h3>3. Визуализация данных:</h3>

10 -Tableau. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации; -Google Chart. Многофункциональный набор инструментов, используемых для визуализации данных.

11 Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе "<a>Data Engineer</a>" в OTUS. Ждём вас на занятиях!