HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-21
1 <p><a>#статьи</a></p>
1 <p><a>#статьи</a></p>
2 <ul><li>31 май 2023</li>
2 <ul><li>31 май 2023</li>
3 <li>0</li>
3 <li>0</li>
4 </ul><p>Разбираемся, что нужно уметь инженеру данных и кому подходит профессия.</p>
4 </ul><p>Разбираемся, что нужно уметь инженеру данных и кому подходит профессия.</p>
5 <p>Иллюстрация: Billion Photos / Shutterstock / Jim cooke / Unsplash / Annie для Skillbox Media</p>
5 <p>Иллюстрация: Billion Photos / Shutterstock / Jim cooke / Unsplash / Annie для Skillbox Media</p>
6 <p>Пишет про digital и машинное обучение для корпоративных блогов. Топ-автор в категории "Искусственный интеллект" на Medium. Kaggle-эксперт.</p>
6 <p>Пишет про digital и машинное обучение для корпоративных блогов. Топ-автор в категории "Искусственный интеллект" на Medium. Kaggle-эксперт.</p>
7 <p>Данные ― это "нефть" для бизнеса и науки. И только инженеры данных знают, как эту нефть добывать, обрабатывать и хранить.</p>
7 <p>Данные ― это "нефть" для бизнеса и науки. И только инженеры данных знают, как эту нефть добывать, обрабатывать и хранить.</p>
8 <p>В статье мы расскажем, какие задачи решает data engineer и чему нужно научиться, чтобы стать востребованным специалистом в этой сфере.</p>
8 <p>В статье мы расскажем, какие задачи решает data engineer и чему нужно научиться, чтобы стать востребованным специалистом в этой сфере.</p>
9 <p>Вы узнаете:</p>
9 <p>Вы узнаете:</p>
10 <ul><li><a>Кто такой data engineer</a></li>
10 <ul><li><a>Кто такой data engineer</a></li>
11 <li><a>Чем data engineer отличается от data scientist</a></li>
11 <li><a>Чем data engineer отличается от data scientist</a></li>
12 <li><a>Чем он занимается</a></li>
12 <li><a>Чем он занимается</a></li>
13 <li><a>Что он должен уметь и знать</a></li>
13 <li><a>Что он должен уметь и знать</a></li>
14 <li><a>Какие у этой профессии достоинства и недостатки</a></li>
14 <li><a>Какие у этой профессии достоинства и недостатки</a></li>
15 <li><a>Как стать data engineer и где этому научиться</a></li>
15 <li><a>Как стать data engineer и где этому научиться</a></li>
16 </ul><p><strong>Дата-инженер (data engineer)</strong> - это специалист, который разрабатывает и обслуживает инфраструктуру хранения, обработки и анализа больших объёмов данных, или big data.</p>
16 </ul><p><strong>Дата-инженер (data engineer)</strong> - это специалист, который разрабатывает и обслуживает инфраструктуру хранения, обработки и анализа больших объёмов данных, или big data.</p>
17 <p>Инженеры данных нужны в банках, ретейле и крупных онлайн-сервисах. Например, банки хранят информацию обо всех транзакциях своих клиентов. Им нужно проанализировать поведение своих клиентов, чтобы предложить им новые полезные продукты: кредитные и дебетовые карты, кешбэк, скидки партнёров и так далее. Но прежде чем анализировать данные о покупках и транзакциях, их нужно собрать в одном месте и структурировать.</p>
17 <p>Инженеры данных нужны в банках, ретейле и крупных онлайн-сервисах. Например, банки хранят информацию обо всех транзакциях своих клиентов. Им нужно проанализировать поведение своих клиентов, чтобы предложить им новые полезные продукты: кредитные и дебетовые карты, кешбэк, скидки партнёров и так далее. Но прежде чем анализировать данные о покупках и транзакциях, их нужно собрать в одном месте и структурировать.</p>
18 <p>Структурированные данные организованы в определённом формате, чаще всего в таблицах, XML-файлах или JSON-файлах. Такие данные легко прочитать и обработать с помощью компьютерных программ. Инженер данных и есть тот человек, который может взять картинки, тексты и видео в неструктурированном формате и трансформировать их в удобный формат, а затем передать другим отделам, например маркетинга или бизнес-аналитики.</p>
18 <p>Структурированные данные организованы в определённом формате, чаще всего в таблицах, XML-файлах или JSON-файлах. Такие данные легко прочитать и обработать с помощью компьютерных программ. Инженер данных и есть тот человек, который может взять картинки, тексты и видео в неструктурированном формате и трансформировать их в удобный формат, а затем передать другим отделам, например маркетинга или бизнес-аналитики.</p>
19 <p>Инженер данных не участвует в анализе данных, но создаёт условия для работы ML-инженеров и аналитиков, обеспечивает их необходимыми инструментами. Data engineer ― техническая специальность, которая требует не только уметь программировать, но и понимать принципы работы "железа", в том числе серверов и облачных систем, где хранятся данные.</p>
19 <p>Инженер данных не участвует в анализе данных, но создаёт условия для работы ML-инженеров и аналитиков, обеспечивает их необходимыми инструментами. Data engineer ― техническая специальность, которая требует не только уметь программировать, но и понимать принципы работы "железа", в том числе серверов и облачных систем, где хранятся данные.</p>
20 <p>Несмотря на некоторую схожесть в названиях специальностей и обязанностях дата-инженеров и дата-сайентистов, это две разные профессии, которые тем не менее отлично дополняют друг друга.</p>
20 <p>Несмотря на некоторую схожесть в названиях специальностей и обязанностях дата-инженеров и дата-сайентистов, это две разные профессии, которые тем не менее отлично дополняют друг друга.</p>
21 <p><strong>Data engineer</strong>создаёт инфраструктуру для работы с данными. Он устанавливает инструменты для сборки и передачи данных, строит архитектуру хранилищ для БД.</p>
21 <p><strong>Data engineer</strong>создаёт инфраструктуру для работы с данными. Он устанавливает инструменты для сборки и передачи данных, строит архитектуру хранилищ для БД.</p>
22 <p><strong>Data scientist</strong>пользуется этой инфраструктурой, чтобы анализировать данные. Он строит и обучает модели, чтобы они находили паттерны в данных и правильно их интерпретировали. К дата-сайентисту данные попадают уже в "очищенном" и упорядоченном виде.</p>
22 <p><strong>Data scientist</strong>пользуется этой инфраструктурой, чтобы анализировать данные. Он строит и обучает модели, чтобы они находили паттерны в данных и правильно их интерпретировали. К дата-сайентисту данные попадают уже в "очищенном" и упорядоченном виде.</p>
23 <em>Инфографика: Майя Мальгина для Skillbox Media</em><p>Можно сказать, что без инженера данные останутся непригодны для работы, ведь некому будет их собрать, систематизировать и передать на изучение. Но и без дата-сайентистов от них не будет пользы, кто-то же должен их проанализировать.</p>
23 <em>Инфографика: Майя Мальгина для Skillbox Media</em><p>Можно сказать, что без инженера данные останутся непригодны для работы, ведь некому будет их собрать, систематизировать и передать на изучение. Но и без дата-сайентистов от них не будет пользы, кто-то же должен их проанализировать.</p>
24 <p>В больших компаниях роли data engineer и data scientist обычно играют разные люди. Но маленькие компании часто ищут многопрофильных специалистов, которые знают, как проектировать инфраструктуру для управления данными, и умеют работать с алгоритмами машинного обучения.</p>
24 <p>В больших компаниях роли data engineer и data scientist обычно играют разные люди. Но маленькие компании часто ищут многопрофильных специалистов, которые знают, как проектировать инфраструктуру для управления данными, и умеют работать с алгоритмами машинного обучения.</p>
25 <p>Инженер данных создаёт условия для хранения и обработки больших данных, или big data. Это значит, что он:</p>
25 <p>Инженер данных создаёт условия для хранения и обработки больших данных, или big data. Это значит, что он:</p>
26 <ul><li>Управляет ETL-процессами, то есть достаёт (extract), трансформирует (transform) и загружает (load) данные в базу данных.</li>
26 <ul><li>Управляет ETL-процессами, то есть достаёт (extract), трансформирует (transform) и загружает (load) данные в базу данных.</li>
27 <li>Очищает данные от дубликатов, ошибок, нерелевантных полей.</li>
27 <li>Очищает данные от дубликатов, ошибок, нерелевантных полей.</li>
28 <li>Организует пайплайн потоков данных (конвейер, по которому потоки данных двигаются в компании).</li>
28 <li>Организует пайплайн потоков данных (конвейер, по которому потоки данных двигаются в компании).</li>
29 <li>Настраивает мониторинг так, чтобы в случае поломки система оповестила инженера о возникшей проблеме.</li>
29 <li>Настраивает мониторинг так, чтобы в случае поломки система оповестила инженера о возникшей проблеме.</li>
30 <li>Разрабатывает и поддерживает базы данных, чтобы нужные данные легко было найти и извлечь.</li>
30 <li>Разрабатывает и поддерживает базы данных, чтобы нужные данные легко было найти и извлечь.</li>
31 <li>Оптимизирует производительность баз данных, чтобы данные стабильно поступали в систему даже при высокой нагрузке.</li>
31 <li>Оптимизирует производительность баз данных, чтобы данные стабильно поступали в систему даже при высокой нагрузке.</li>
32 <li>Разрабатывает и поддерживает приложения для работы с данными, такие как API и CLI.</li>
32 <li>Разрабатывает и поддерживает приложения для работы с данными, такие как API и CLI.</li>
33 <li>Cоставляет расписание, по которому система обработки данных в компании будет работать с информацией.</li>
33 <li>Cоставляет расписание, по которому система обработки данных в компании будет работать с информацией.</li>
34 </ul><p>Конечно, стоит отметить, что конкретный набор обязанностей специалиста зависит от компании, в которой он работает. И, как уже было сказано выше, нередко от дата-инженера ожидают умений из смежных профессий, таких как data science.</p>
34 </ul><p>Конечно, стоит отметить, что конкретный набор обязанностей специалиста зависит от компании, в которой он работает. И, как уже было сказано выше, нередко от дата-инженера ожидают умений из смежных профессий, таких как data science.</p>
35 <p>Вот "джентльменский набор" хард-скиллов, которыми должен владеть инженер по работе с данными.</p>
35 <p>Вот "джентльменский набор" хард-скиллов, которыми должен владеть инженер по работе с данными.</p>
36 <p><strong>Языки программирования.</strong>Чтобы работать дата-инженером, нужно уметь программировать на Python или Java/Scala, реже на Go или C++. Навык пригодится для автоматизации обработки данных из разных источников, а также для разработки служебных утилит и сервисов. Из приведённых языков Python ― самый разноплановый и потому популярный, зато Scala более эффективен в промышленных масштабах за счёт специализации на работе с данными.</p>
36 <p><strong>Языки программирования.</strong>Чтобы работать дата-инженером, нужно уметь программировать на Python или Java/Scala, реже на Go или C++. Навык пригодится для автоматизации обработки данных из разных источников, а также для разработки служебных утилит и сервисов. Из приведённых языков Python ― самый разноплановый и потому популярный, зато Scala более эффективен в промышленных масштабах за счёт специализации на работе с данными.</p>
37 <p><strong>Базы данных и SQL.</strong>Инженер по данным много работает с таблицами, поэтому он должен уметь писать SQL-запросы и работать с разными видами баз данных (например,<a>реляционными</a>или<a>колоночными</a>).</p>
37 <p><strong>Базы данных и SQL.</strong>Инженер по данным много работает с таблицами, поэтому он должен уметь писать SQL-запросы и работать с разными видами баз данных (например,<a>реляционными</a>или<a>колоночными</a>).</p>
38 <p><strong>Hadoop, Spark и Kafka.</strong>Эти инструменты помогают работать с данными на кластерах (то есть группах взаимно подсоединённых виртуальных вычислительных или физических машин), потому что большие данные невозможно эффективно обработать на локальных компьютерах. Также важно знать Linux, владеть<a>командной строкой</a>, писать<a>Bash-сценарии</a>и уметь работать с облачными сервисами, например Amazon Web Services. Данные часто<a>обрабатываются в облаке</a>, поскольку немногие компании могут себе позволить выстроить собственную огромную инфраструктуру.</p>
38 <p><strong>Hadoop, Spark и Kafka.</strong>Эти инструменты помогают работать с данными на кластерах (то есть группах взаимно подсоединённых виртуальных вычислительных или физических машин), потому что большие данные невозможно эффективно обработать на локальных компьютерах. Также важно знать Linux, владеть<a>командной строкой</a>, писать<a>Bash-сценарии</a>и уметь работать с облачными сервисами, например Amazon Web Services. Данные часто<a>обрабатываются в облаке</a>, поскольку немногие компании могут себе позволить выстроить собственную огромную инфраструктуру.</p>
39 <p><strong>Хотите узнать всё о Kafka меньше чем за час?</strong>Слушайте<a>выпуск подкаста "Люди и код"</a>, в котором мы обсудили его API, сложности настройки, сценарии использования и сравнили с конкурентами.</p>
39 <p><strong>Хотите узнать всё о Kafka меньше чем за час?</strong>Слушайте<a>выпуск подкаста "Люди и код"</a>, в котором мы обсудили его API, сложности настройки, сценарии использования и сравнили с конкурентами.</p>
40 <p><strong>Docker.</strong>Инженеру данных также важно уметь пользоваться Docker. Это сервис для упаковки данных на локальном компьютере, чтобы их можно было передать коллегам или в кластер.</p>
40 <p><strong>Docker.</strong>Инженеру данных также важно уметь пользоваться Docker. Это сервис для упаковки данных на локальном компьютере, чтобы их можно было передать коллегам или в кластер.</p>
41 <p><strong>Софт-скиллы.</strong>Несмотря на то, что инженер данных - глубоко техническая профессия, даже здесь требуются развитые софт-скиллы. Инженеру нужно уметь взаимодействовать с командой из своего и других отделов: data science, бизнес-аналитики и маркетинга. В работе с аналитиками данных инженер данных, по сути, выступает как исполнитель, а data scientist - как клиент. Поэтому инженер данных должен разобраться в потребности клиента, предложить решение и уметь убедительно презентовать его.</p>
41 <p><strong>Софт-скиллы.</strong>Несмотря на то, что инженер данных - глубоко техническая профессия, даже здесь требуются развитые софт-скиллы. Инженеру нужно уметь взаимодействовать с командой из своего и других отделов: data science, бизнес-аналитики и маркетинга. В работе с аналитиками данных инженер данных, по сути, выступает как исполнитель, а data scientist - как клиент. Поэтому инженер данных должен разобраться в потребности клиента, предложить решение и уметь убедительно презентовать его.</p>
42 <p>Ну какие недостатки могут быть у такой перспективной и модной профессии? Оказывается, кое-какие трудности всё-таки есть.</p>
42 <p>Ну какие недостатки могут быть у такой перспективной и модной профессии? Оказывается, кое-какие трудности всё-таки есть.</p>
43 <p><strong>Большая ответственность.</strong>Дата-инженеры отвечают за работу инфраструктуры, качество и сохранность данных. Им часто приходится выполнять монотонную и однотипную работу - при этом важно не терять сосредоточенности.</p>
43 <p><strong>Большая ответственность.</strong>Дата-инженеры отвечают за работу инфраструктуры, качество и сохранность данных. Им часто приходится выполнять монотонную и однотипную работу - при этом важно не терять сосредоточенности.</p>
44 <p><strong>Высокий порог входа.</strong>Даже чтобы претендовать на джуниорскую позицию, нужно овладеть несколькими разноплановыми инструментами для работы с данными. А поскольку профессия новая, список требований может сильно разниться в разных компаниях.</p>
44 <p><strong>Высокий порог входа.</strong>Даже чтобы претендовать на джуниорскую позицию, нужно овладеть несколькими разноплановыми инструментами для работы с данными. А поскольку профессия новая, список требований может сильно разниться в разных компаниях.</p>
45 <p>Зато плюсов куда больше:</p>
45 <p>Зато плюсов куда больше:</p>
46 <p><strong>Высокие зарплаты и относительно низкая конкуренция.</strong>Хороших специалистов мало, поэтому конкуренция на рынке невысокая, а зарплаты высокие - как в России, так и за рубежом. Согласно<a>hh.ru</a>, начинающий дата-инженер может претендовать на зарплату от 75 тысяч рублей. Middle-инженер может зарабатывать от 100 до 390 тысяч рублей, а senior - от 240 до 830 тысяч рублей и более. В зарубежных компаниях могут платить намного больше.</p>
46 <p><strong>Высокие зарплаты и относительно низкая конкуренция.</strong>Хороших специалистов мало, поэтому конкуренция на рынке невысокая, а зарплаты высокие - как в России, так и за рубежом. Согласно<a>hh.ru</a>, начинающий дата-инженер может претендовать на зарплату от 75 тысяч рублей. Middle-инженер может зарабатывать от 100 до 390 тысяч рублей, а senior - от 240 до 830 тысяч рублей и более. В зарубежных компаниях могут платить намного больше.</p>
47 <em>Скриншот: HeadHunter / Skillbox Media</em><p><strong>Удалённая работа или релокация.</strong>Вы сможете работать удалённо в крупных городах России или за рубежом. К тому же зарубежные компании заинтересованы в технических специалистах и охотно помогают им с релокацией.</p>
47 <em>Скриншот: HeadHunter / Skillbox Media</em><p><strong>Удалённая работа или релокация.</strong>Вы сможете работать удалённо в крупных городах России или за рубежом. К тому же зарубежные компании заинтересованы в технических специалистах и охотно помогают им с релокацией.</p>
48 <p><strong>Перспективность и стабильность со знаком +.</strong>Количество данных и потребность в специалистах, которые умеют с ними работать, растёт из года в год. Согласно<a>отчёту Dice</a>, в 2021 году в России спрос на дата-инженеров увеличился на 127%.</p>
48 <p><strong>Перспективность и стабильность со знаком +.</strong>Количество данных и потребность в специалистах, которые умеют с ними работать, растёт из года в год. Согласно<a>отчёту Dice</a>, в 2021 году в России спрос на дата-инженеров увеличился на 127%.</p>
49 <p><strong>Это очень интересно.</strong>Если вам нравится решать сложные задачи и осваивать новые технологии, эта профессия точно вам понравится. К тому же инженеру по данным есть куда расти, как вертикально, так и горизонтально. Или со временем вы можете вовсе сменить карьерный вектор. Например, освоить machine learning и работать с моделями машинного обучения или переквалифицироваться в DevOps-инженера и заниматься автоматизацией и упорядочиванием процесса разработки в целом.</p>
49 <p><strong>Это очень интересно.</strong>Если вам нравится решать сложные задачи и осваивать новые технологии, эта профессия точно вам понравится. К тому же инженеру по данным есть куда расти, как вертикально, так и горизонтально. Или со временем вы можете вовсе сменить карьерный вектор. Например, освоить machine learning и работать с моделями машинного обучения или переквалифицироваться в DevOps-инженера и заниматься автоматизацией и упорядочиванием процесса разработки в целом.</p>
50 <p>Чтобы стать инженером данных, нужно изучить основы информационных технологий, математики и статистики. Также придётся освоить язык программирования, работу с базами данных и специальные инструменты: Hadoop, Spark, NoSQL и другие (<a>см. выше</a>).</p>
50 <p>Чтобы стать инженером данных, нужно изучить основы информационных технологий, математики и статистики. Также придётся освоить язык программирования, работу с базами данных и специальные инструменты: Hadoop, Spark, NoSQL и другие (<a>см. выше</a>).</p>
51 <p>Чтобы повысить квалификацию и увеличить шансы на получение работы, некоторые специалисты советуют получить сертификаты в области big data и data engineering. Самые популярные из них:</p>
51 <p>Чтобы повысить квалификацию и увеличить шансы на получение работы, некоторые специалисты советуют получить сертификаты в области big data и data engineering. Самые популярные из них:</p>
52 <ul><li><a>Google Certified Professional Data Engineer</a></li>
52 <ul><li><a>Google Certified Professional Data Engineer</a></li>
53 <li><a>IBM Data Science Professional Certificate</a></li>
53 <li><a>IBM Data Science Professional Certificate</a></li>
54 <li><a>AWS Certified Big Data</a></li>
54 <li><a>AWS Certified Big Data</a></li>
55 </ul><p>Программы высшего образования в области инженерии данных есть в крупных российских вузах, в том числе в МФТИ, МИФИ и НИУ ВШЭ.</p>
55 </ul><p>Программы высшего образования в области инженерии данных есть в крупных российских вузах, в том числе в МФТИ, МИФИ и НИУ ВШЭ.</p>
56 <p>В Skillbox можно<a>обучиться профессии за два года</a>. Сначала вы пройдёте модуль с основами data science, а потом выберете специализацию, одна из которых - data engineer. Среди главных преимуществ такого подхода - упор на практические задачи, свежая и регулярно обновляемая программа, а также постоянная коммуникация с преподавателями.</p>
56 <p>В Skillbox можно<a>обучиться профессии за два года</a>. Сначала вы пройдёте модуль с основами data science, а потом выберете специализацию, одна из которых - data engineer. Среди главных преимуществ такого подхода - упор на практические задачи, свежая и регулярно обновляемая программа, а также постоянная коммуникация с преподавателями.</p>
57 <a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>
57 <a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>