HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: машинное обучение, data scientist, bigdata, data science, data engineer, инженеры данных, data engineering</p>
1 <p>Теги: машинное обучение, data scientist, bigdata, data science, data engineer, инженеры данных, data engineering</p>
2 <p><strong>Машинное обучение</strong>и нейросети показали миру, насколько они эффективны во многих сферах. Однако алгоритмы сами по себе выдающийся результат не покажут. Это возможно лишь в том случае, если их обучить на большом количестве данных. И данные эти должны быть качественные. Получается, что процесс сбора и подготовки этих самых данных, называемый<strong>Data Engineering</strong>, не менее важен, чем построение моделей.</p>
2 <p><strong>Машинное обучение</strong>и нейросети показали миру, насколько они эффективны во многих сферах. Однако алгоритмы сами по себе выдающийся результат не покажут. Это возможно лишь в том случае, если их обучить на большом количестве данных. И данные эти должны быть качественные. Получается, что процесс сбора и подготовки этих самых данных, называемый<strong>Data Engineering</strong>, не менее важен, чем построение моделей.</p>
3 <h2>Хороших инженеров данных сегодня мало</h2>
3 <h2>Хороших инженеров данных сегодня мало</h2>
4 <p>Data engineering появился в стране относительно недавно. Это были компании-лидеры отечественной<strong>Data Science</strong>(банки, ритейлеры, телеком, e-commerce). То есть те, кто генерирует на единицу времени больше всего данных. Например, в том же Сбербанке инженеры выполняют обработку данных из сотен хранилищ. В таких компаниях Data engineering - жизненная необходимость, особенно если говорить о внедрении моделей машинного обучения.</p>
4 <p>Data engineering появился в стране относительно недавно. Это были компании-лидеры отечественной<strong>Data Science</strong>(банки, ритейлеры, телеком, e-commerce). То есть те, кто генерирует на единицу времени больше всего данных. Например, в том же Сбербанке инженеры выполняют обработку данных из сотен хранилищ. В таких компаниях Data engineering - жизненная необходимость, особенно если говорить о внедрении моделей машинного обучения.</p>
5 <p>Специфика сегодняшнего российского Data engineering заключается в<strong>остром кадровом голоде</strong>, о чём всё чаще говорят рекрутеры крупнейших компаний. У нас просто катастрофически не хватает хороших Data engineers. Почему?</p>
5 <p>Специфика сегодняшнего российского Data engineering заключается в<strong>остром кадровом голоде</strong>, о чём всё чаще говорят рекрутеры крупнейших компаний. У нас просто катастрофически не хватает хороших Data engineers. Почему?</p>
6 <p>Есть как минимум<strong>2 причины</strong>: 1. Качественную экспертизу в построении Big Data-инфраструктуры на рынке можно пересчитать по пальцам. Да что там говорить, большинство компаний просто не знают, каким образом должен выглядеть качественный пайплайн обработки данных. Раз не знают - не могут чётко обозначить требования к потенциальным инженерам. 2. Многие инженеры данных, увы, покидают Россию, уезжая в зарубежные компании. Впрочем, такова тенденция и для многих отечественных айтишников - молодой талант из региона сначала приезжает в Москву, а потом за рубеж. Тем более языковой барьер отсутствует. Что касается инженеров данных, то ситуация схожа. Причём уезжают не только проверенные эксперты, но и те, кто получил совсем незначительный опыт работы в этой области.</p>
6 <p>Есть как минимум<strong>2 причины</strong>: 1. Качественную экспертизу в построении Big Data-инфраструктуры на рынке можно пересчитать по пальцам. Да что там говорить, большинство компаний просто не знают, каким образом должен выглядеть качественный пайплайн обработки данных. Раз не знают - не могут чётко обозначить требования к потенциальным инженерам. 2. Многие инженеры данных, увы, покидают Россию, уезжая в зарубежные компании. Впрочем, такова тенденция и для многих отечественных айтишников - молодой талант из региона сначала приезжает в Москву, а потом за рубеж. Тем более языковой барьер отсутствует. Что касается инженеров данных, то ситуация схожа. Причём уезжают не только проверенные эксперты, но и те, кто получил совсем незначительный опыт работы в этой области.</p>
7 <h2>Можно ли обойтись Data scientists?</h2>
7 <h2>Можно ли обойтись Data scientists?</h2>
8 <p>Нет, практика показывает, что одними лишь Data scientists не может обойтись ни одна крупная компания. Дело в том, что<strong>инженеры данных повышают эффективность работы Data scientists</strong>. Говоря о последних, можно вспомнить, что ещё несколько лет назад при поступлении на работу в качестве Data scientist можно было прочитать что-то вроде: "Будьте готовы уделять 80% своего времени сбору, обработке и очистке данных". То есть Data scientist тратит на свою основную деятельность лишь 20% времени, что нередко приводит к потере мотивации.</p>
8 <p>Нет, практика показывает, что одними лишь Data scientists не может обойтись ни одна крупная компания. Дело в том, что<strong>инженеры данных повышают эффективность работы Data scientists</strong>. Говоря о последних, можно вспомнить, что ещё несколько лет назад при поступлении на работу в качестве Data scientist можно было прочитать что-то вроде: "Будьте готовы уделять 80% своего времени сбору, обработке и очистке данных". То есть Data scientist тратит на свою основную деятельность лишь 20% времени, что нередко приводит к потере мотивации.</p>
9 <p>Также можно отметить, что чем больше Data scientist тратит времени на обработку данных, тем меньше у него остаётся времени на поиск взаимосвязей в данных, и тем меньше вероятность того, что получится действительно качественная модель. Тут уместно вспомнить и про принцип "garbage in - garbage out": если моделям на вход подавать некачественные данные, не стоит ожидать качественного результата.</p>
9 <p>Также можно отметить, что чем больше Data scientist тратит времени на обработку данных, тем меньше у него остаётся времени на поиск взаимосвязей в данных, и тем меньше вероятность того, что получится действительно качественная модель. Тут уместно вспомнить и про принцип "garbage in - garbage out": если моделям на вход подавать некачественные данные, не стоит ожидать качественного результата.</p>
10 <p>Слава богу, существование этой проблемы осознали, поэтому компании и начали активно искать инженеров данных, благодаря которым аналитик Data scientist будет своё свободное время посвящать именно<strong>построению моделей</strong>.</p>
10 <p>Слава богу, существование этой проблемы осознали, поэтому компании и начали активно искать инженеров данных, благодаря которым аналитик Data scientist будет своё свободное время посвящать именно<strong>построению моделей</strong>.</p>
11 <p><strong>Вывод прост</strong>: сегодня ни одна серьёзная data-driven компания не сможет обойтись только Data scientists. Очень нужны также и люди, которые специализируются на организации процесса сбора данных, занимаются их предобработкой.</p>
11 <p><strong>Вывод прост</strong>: сегодня ни одна серьёзная data-driven компания не сможет обойтись только Data scientists. Очень нужны также и люди, которые специализируются на организации процесса сбора данных, занимаются их предобработкой.</p>
12 <p>А теперь<strong>вывод номер два</strong>: без Data engineers модели Data scientists ценности для бизнеса не несут. Ведь в большинстве случаев результат работы Data scientist - скрипт с моделью, ценность которой сама по себе условна. И топ-менеджерам по большому счету всё равно, какой log loss получили на кросс-валидации. Гораздо важнее, какую прибыль принесёт продукт.<strong>На первом плане прибыль, а не модель, которая за всем стоит</strong>.</p>
12 <p>А теперь<strong>вывод номер два</strong>: без Data engineers модели Data scientists ценности для бизнеса не несут. Ведь в большинстве случаев результат работы Data scientist - скрипт с моделью, ценность которой сама по себе условна. И топ-менеджерам по большому счету всё равно, какой log loss получили на кросс-валидации. Гораздо важнее, какую прибыль принесёт продукт.<strong>На первом плане прибыль, а не модель, которая за всем стоит</strong>.</p>
13 <p>Таким образом,<strong>Data engineer - залог удовлетворения потребностей</strong>и руководства, и клиентов. Без дата-инженера компании очень сложно обеспечить качественный переход к data-driven бизнес-модели, ведь Data engineer отвечает и за инфраструктуру, и за внедрение моделей в production.</p>
13 <p>Таким образом,<strong>Data engineer - залог удовлетворения потребностей</strong>и руководства, и клиентов. Без дата-инженера компании очень сложно обеспечить качественный переход к data-driven бизнес-модели, ведь Data engineer отвечает и за инфраструктуру, и за внедрение моделей в production.</p>
14 <p>Да, в некоторых фирмах Data scientists по-прежнему работают end-to-end, занимаясь и обработкой данных, и построением моделей, и доведением их до стадии готового продукта. Но современная тенденция такова, что один супермен, который занимается всем, становится пережитком прошлого.</p>
14 <p>Да, в некоторых фирмах Data scientists по-прежнему работают end-to-end, занимаясь и обработкой данных, и построением моделей, и доведением их до стадии готового продукта. Но современная тенденция такова, что один супермен, который занимается всем, становится пережитком прошлого.</p>
15 <p><em>Материал подготовлен специально для OTUS на основании<a>интервью</a>Артёма Пичугина, руководителя программ по большим данным в Newprolab.</em></p>
15 <p><em>Материал подготовлен специально для OTUS на основании<a>интервью</a>Артёма Пичугина, руководителя программ по большим данным в Newprolab.</em></p>
16  
16