0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: big data, data engineer, дата-инженер, бигдата, обработка больших данных, hadoop</p>
1
<p>Теги: big data, data engineer, дата-инженер, бигдата, обработка больших данных, hadoop</p>
2
<p>Как известно,<strong>Data Engineer</strong>является специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируется<strong>Big Data</strong>вообще? И какими навыками должен обладать человек, который решил стать дата-инженером.</p>
2
<p>Как известно,<strong>Data Engineer</strong>является специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируется<strong>Big Data</strong>вообще? И какими навыками должен обладать человек, который решил стать дата-инженером.</p>
3
<p>Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы: 1)<strong>для сбора и хранения данных</strong>(БД, "облака"); 2)<strong>для анализа данных</strong>(проверка гипотез, A/B-тестирование и т. п.); 3)<strong>для визуального представления данных</strong>(графики, таблицы и т. д.).</p>
3
<p>Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы: 1)<strong>для сбора и хранения данных</strong>(БД, "облака"); 2)<strong>для анализа данных</strong>(проверка гипотез, A/B-тестирование и т. п.); 3)<strong>для визуального представления данных</strong>(графики, таблицы и т. д.).</p>
4
<p>Расскажем подробнее о некоторых наиболее важных технологиях.</p>
4
<p>Расскажем подробнее о некоторых наиболее важных технологиях.</p>
5
<h3>1. Сбор и хранение данных:</h3>
5
<h3>1. Сбор и хранение данных:</h3>
6
<p>-<strong>Apache Hadoop</strong>. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь "слонёнок" Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов; -<strong>Apache Ranger</strong>. Данный фреймворк обеспечивает безопасность данных в Hadoop; -<strong>базы данных NoSQL</strong>. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных; -<strong>Data Lakes</strong>(так называемые "озёра данных"). Речь идёт о неструктурированных хранилищах для большого количества "сырых" данных, которые не подвергались каким-нибудь изменениям перед сохранением; -<strong>базы данных In-memory</strong>. Это БД, использующие в качестве основного хранилища оперативную память компьютера.</p>
6
<p>-<strong>Apache Hadoop</strong>. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь "слонёнок" Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов; -<strong>Apache Ranger</strong>. Данный фреймворк обеспечивает безопасность данных в Hadoop; -<strong>базы данных NoSQL</strong>. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных; -<strong>Data Lakes</strong>(так называемые "озёра данных"). Речь идёт о неструктурированных хранилищах для большого количества "сырых" данных, которые не подвергались каким-нибудь изменениям перед сохранением; -<strong>базы данных In-memory</strong>. Это БД, использующие в качестве основного хранилища оперативную память компьютера.</p>
7
<h3>2. Анализ данных:</h3>
7
<h3>2. Анализ данных:</h3>
8
<p>-<strong>Apache Spark</strong>. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop; -<strong>Scikit-learn</strong>. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python; -<strong>Elasticsearch</strong>. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.</p>
8
<p>-<strong>Apache Spark</strong>. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop; -<strong>Scikit-learn</strong>. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python; -<strong>Elasticsearch</strong>. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.</p>
9
<h3>3. Визуализация данных:</h3>
9
<h3>3. Визуализация данных:</h3>
10
<p>-<strong>Tableau</strong>. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации; -<strong>Google Chart</strong>. Многофункциональный набор инструментов, используемых для визуализации данных.</p>
10
<p>-<strong>Tableau</strong>. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации; -<strong>Google Chart</strong>. Многофункциональный набор инструментов, используемых для визуализации данных.</p>
11
<p><em>Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе "<a>Data Engineer</a>" в OTUS. Ждём вас на занятиях!</em></p>
11
<p><em>Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе "<a>Data Engineer</a>" в OTUS. Ждём вас на занятиях!</em></p>
12
12