HTML Diff
1 added 1 removed
Original 2026-01-01
Modified 2026-02-21
1 <p><a>#статьи</a></p>
1 <p><a>#статьи</a></p>
2 <ul><li>6 апр 2021</li>
2 <ul><li>6 апр 2021</li>
3 <li>0</li>
3 <li>0</li>
4 </ul><h2>Карта развития дата-сайентиста: с чего начать, к чему идти и сколько времени потребуется</h2>
4 </ul><h2>Карта развития дата-сайентиста: с чего начать, к чему идти и сколько времени потребуется</h2>
5 <p>На каком уровне находитесь вы и далеко ли до следующей ступеньки?</p>
5 <p>На каком уровне находитесь вы и далеко ли до следующей ступеньки?</p>
6 <p>Кандидат философских наук, специалист по математическому моделированию. Пишет про Data Science, AI и программирование на Python.</p>
6 <p>Кандидат философских наук, специалист по математическому моделированию. Пишет про Data Science, AI и программирование на Python.</p>
7 <p><strong>Об авторе</strong></p>
7 <p><strong>Об авторе</strong></p>
8 <p>Преподаватель физики и инженерных дисциплин в Университете Эдмонта, Оклахома. Интересы: Data Science, машинное обучение, ИИ, Python, R, биофизика.</p>
8 <p>Преподаватель физики и инженерных дисциплин в Университете Эдмонта, Оклахома. Интересы: Data Science, машинное обучение, ИИ, Python, R, биофизика.</p>
9 <p>Каждый, кто заинтересовался наукой о данных, задаётся вопросом: а сколько времени понадобится, чтобы её изучить? Мы составили примерный график профессионального развития дата-сайентиста по трём уровням - базовый, средний и продвинутый. Чтобы было проще сравнивать с требованиями вакансий, привели их к принятым в IT терминам: стажёр (intern), джун (junior, младший), мидл (middle, средний) и сеньор (senior, старший).</p>
9 <p>Каждый, кто заинтересовался наукой о данных, задаётся вопросом: а сколько времени понадобится, чтобы её изучить? Мы составили примерный график профессионального развития дата-сайентиста по трём уровням - базовый, средний и продвинутый. Чтобы было проще сравнивать с требованиями вакансий, привели их к принятым в IT терминам: стажёр (intern), джун (junior, младший), мидл (middle, средний) и сеньор (senior, старший).</p>
10 <p>Уровни для дата-сайентиста рассмотрим на примере языка Python. Но вообще в Data Science используют и другие языки и платформы - R, Julia, SAS, MATLAB.</p>
10 <p>Уровни для дата-сайентиста рассмотрим на примере языка Python. Но вообще в Data Science используют и другие языки и платформы - R, Julia, SAS, MATLAB.</p>
11 <p><strong>Дополнительно:</strong>Чтобы не запутаться в терминах, прочитайте<a>нашу статью</a>про Python-минимум, необходимый для первоначального погружения в Data Science. И будьте осторожны - дальше много чек-листов и перечислений :)</p>
11 <p><strong>Дополнительно:</strong>Чтобы не запутаться в терминах, прочитайте<a>нашу статью</a>про Python-минимум, необходимый для первоначального погружения в Data Science. И будьте осторожны - дальше много чек-листов и перечислений :)</p>
12 <p>Главное на этом уровне - научиться работать с датасетами в виде CSV-файлов, обрабатывать и визуализировать данные, понимать, что такое линейная регрессия.</p>
12 <p>Главное на этом уровне - научиться работать с датасетами в виде CSV-файлов, обрабатывать и визуализировать данные, понимать, что такое линейная регрессия.</p>
13 <p>В первую очередь придётся манипулировать данными, чистить, структурировать и приводить их к единой размерности или шкале. От новичка ждут уверенной работы с библиотеками Pandas и NumPy и некоторых специальных навыков:</p>
13 <p>В первую очередь придётся манипулировать данными, чистить, структурировать и приводить их к единой размерности или шкале. От новичка ждут уверенной работы с библиотеками Pandas и NumPy и некоторых специальных навыков:</p>
14 <ul><li>импорт и экспорт данных в CSV-формате;</li>
14 <ul><li>импорт и экспорт данных в CSV-формате;</li>
15 <li>очистка, предварительная подготовка, систематизация данных для анализа или построения модели;</li>
15 <li>очистка, предварительная подготовка, систематизация данных для анализа или построения модели;</li>
16 <li>работа с пропущенными значениями в датасете;</li>
16 <li>работа с пропущенными значениями в датасете;</li>
17 <li>понимание принципов замены недостающих данных (импутации) и их реализация - например, замена средними или медианами;</li>
17 <li>понимание принципов замены недостающих данных (импутации) и их реализация - например, замена средними или медианами;</li>
18 <li>работа с категориальными признаками;</li>
18 <li>работа с категориальными признаками;</li>
19 <li>разделение датасета на обучающую и тестовую части;</li>
19 <li>разделение датасета на обучающую и тестовую части;</li>
20 <li>нормировка данных с помощью нормализации и стандартизации;</li>
20 <li>нормировка данных с помощью нормализации и стандартизации;</li>
21 <li>уменьшение объёма данных с помощью техник снижения размерности - например, метода главных компонент.</li>
21 <li>уменьшение объёма данных с помощью техник снижения размерности - например, метода главных компонент.</li>
22 </ul><p>Новичок должен знать основные принципы хорошей визуализации и инструменты - в том числе Python-библиотеки matplotlib и seaborn (для R - ggplot2).</p>
22 </ul><p>Новичок должен знать основные принципы хорошей визуализации и инструменты - в том числе Python-библиотеки matplotlib и seaborn (для R - ggplot2).</p>
23 <p>Какие компоненты нужны для правильной визуализации данных:</p>
23 <p>Какие компоненты нужны для правильной визуализации данных:</p>
24 <ul><li><strong>Данные</strong>. Прежде чем решить, как именно визуализировать данные, надо понять, к какому типу они относятся: категориальные, численные, дискретные, непрерывные, временной ряд.</li>
24 <ul><li><strong>Данные</strong>. Прежде чем решить, как именно визуализировать данные, надо понять, к какому типу они относятся: категориальные, численные, дискретные, непрерывные, временной ряд.</li>
25 <li><strong>Геометрия</strong>. То есть какой график вам подойдёт: диаграмма рассеяния, столбиковая диаграмма, линейный график, гистограмма, диаграмма плотности, "ящик с усами", тепловая карта.</li>
25 <li><strong>Геометрия</strong>. То есть какой график вам подойдёт: диаграмма рассеяния, столбиковая диаграмма, линейный график, гистограмма, диаграмма плотности, "ящик с усами", тепловая карта.</li>
26 <li><strong>Координаты</strong>. Нужно определить, какая из переменных будет отражена на оси x, а какая - на оси y. Это важно, особенно если у вас многомерный датасет с несколькими признаками.</li>
26 <li><strong>Координаты</strong>. Нужно определить, какая из переменных будет отражена на оси x, а какая - на оси y. Это важно, особенно если у вас многомерный датасет с несколькими признаками.</li>
27 <li><strong>Шкала</strong>. Решите, какую шкалу будете использовать: линейную, логарифмическую или другие.</li>
27 <li><strong>Шкала</strong>. Решите, какую шкалу будете использовать: линейную, логарифмическую или другие.</li>
28 <li><strong>Текст</strong>. Всё, что касается подписей, надписей, легенд, размера шрифта и так далее.</li>
28 <li><strong>Текст</strong>. Всё, что касается подписей, надписей, легенд, размера шрифта и так далее.</li>
29 <li><strong>Этика</strong>. Убедитесь, что ваша визуализация излагает данные правдиво. Иными словами, что вы не вводите в заблуждение свою аудиторию, когда очищаете, обобщаете, преобразовываете и визуализируете данные.</li>
29 <li><strong>Этика</strong>. Убедитесь, что ваша визуализация излагает данные правдиво. Иными словами, что вы не вводите в заблуждение свою аудиторию, когда очищаете, обобщаете, преобразовываете и визуализируете данные.</li>
30 </ul><p>Главное: стажёру придётся изучить методы регрессии, стать почти на ты с библиотеками scikit-learn и caret, чтобы строить модели линейной регрессии. Но чтобы стать полноценным джуниором, стажёр должен знать и уметь ещё кучу всего (осторожно - там сложные слова, но есть подсказки):</p>
30 </ul><p>Главное: стажёру придётся изучить методы регрессии, стать почти на ты с библиотеками scikit-learn и caret, чтобы строить модели линейной регрессии. Но чтобы стать полноценным джуниором, стажёр должен знать и уметь ещё кучу всего (осторожно - там сложные слова, но есть подсказки):</p>
31 <ul><li>проводить простой регрессионный анализ с помощью NumPy или Pylab;</li>
31 <ul><li>проводить простой регрессионный анализ с помощью NumPy или Pylab;</li>
32 <li>использовать библиотеку scikit-learn, чтобы решать задачи с множественной регрессией;</li>
32 <li>использовать библиотеку scikit-learn, чтобы решать задачи с множественной регрессией;</li>
33 <li>понимать методы регуляризации: метод LASSO, метод упругой сети, метод регуляризации Тихонова;</li>
33 <li>понимать методы регуляризации: метод LASSO, метод упругой сети, метод регуляризации Тихонова;</li>
34 <li>знать непараметрические методы регрессии: метод k-ближайших соседей и метод опорных векторов;</li>
34 <li>знать непараметрические методы регрессии: метод k-ближайших соседей и метод опорных векторов;</li>
35 <li>понимать метрики оценок моделей регрессии: среднеквадратичная ошибка, средняя абсолютная ошибка и коэффициент детерминации R-квадрат;</li>
35 <li>понимать метрики оценок моделей регрессии: среднеквадратичная ошибка, средняя абсолютная ошибка и коэффициент детерминации R-квадрат;</li>
36 <li>сравнивать разные модели регрессии.</li>
36 <li>сравнивать разные модели регрессии.</li>
37 </ul><p>А как вы хотели - сделать Терминатора непросто :)</p>
37 </ul><p>А как вы хотели - сделать Терминатора непросто :)</p>
38 <p>Прочно закрепив на практике все те неприличные слова из блока для джуна, можно штурмовать более продвинутые техники и методы: предсказание дискретных переменных в <a>обучении с учителем</a>(supervised learning), оценку и настройку моделей, а также сбор разных алгоритмов в единые ансамбли методов. Вы уже поняли, что сейчас опять начнётся ковровое бомбометание дата-сайентистскими терминами? Не вздумайте употреблять их в публичных местах - а то бабушки начнут креститься, как будто увидели сатаниста или парня с татуировками по всему телу :)</p>
38 <p>Прочно закрепив на практике все те неприличные слова из блока для джуна, можно штурмовать более продвинутые техники и методы: предсказание дискретных переменных в <a>обучении с учителем</a>(supervised learning), оценку и настройку моделей, а также сбор разных алгоритмов в единые ансамбли методов. Вы уже поняли, что сейчас опять начнётся ковровое бомбометание дата-сайентистскими терминами? Не вздумайте употреблять их в публичных местах - а то бабушки начнут креститься, как будто увидели сатаниста или парня с татуировками по всему телу :)</p>
39 <p>Начните с алгоритмов бинарной классификации - вот какие надо знать мидлу:</p>
39 <p>Начните с алгоритмов бинарной классификации - вот какие надо знать мидлу:</p>
40 <ul><li>перцептрон;</li>
40 <ul><li>перцептрон;</li>
41 <li>логистическая регрессия;</li>
41 <li>логистическая регрессия;</li>
42 <li>метод опорных векторов;</li>
42 <li>метод опорных векторов;</li>
43 <li>решающие деревья и случайный лес;</li>
43 <li>решающие деревья и случайный лес;</li>
44 <li>k-ближайших соседей;</li>
44 <li>k-ближайших соседей;</li>
45 <li>наивный байесовский классификатор.</li>
45 <li>наивный байесовский классификатор.</li>
46 </ul><p><strong>Дополнительно:</strong><a>небольшая статья</a>о том, как создать простую модель машинного обучения. Формируем и делим датасет, обучаем модель Random Forest, предсказываем дискретную переменную и вот это всё.</p>
46 </ul><p><strong>Дополнительно:</strong><a>небольшая статья</a>о том, как создать простую модель машинного обучения. Формируем и делим датасет, обучаем модель Random Forest, предсказываем дискретную переменную и вот это всё.</p>
47 <p>Мастхэв - на хорошем уровне работать с <a>библиотекой scikit-learn</a>(она уже тут мелькала), которая помогает строить модели. Также придётся решать задачи на нелинейную классификацию с помощью метода опорных векторов, освоить несколько метрик для оценки алгоритмов классификации - точность, погрешность, чувствительность, матрица ошибок, F-мера, ROC-кривая.</p>
47 <p>Мастхэв - на хорошем уровне работать с <a>библиотекой scikit-learn</a>(она уже тут мелькала), которая помогает строить модели. Также придётся решать задачи на нелинейную классификацию с помощью метода опорных векторов, освоить несколько метрик для оценки алгоритмов классификации - точность, погрешность, чувствительность, матрица ошибок, F-мера, ROC-кривая.</p>
48 <p>Чтобы правильно оценивать и настраивать модели, специалисту нужно:</p>
48 <p>Чтобы правильно оценивать и настраивать модели, специалисту нужно:</p>
49 <ul><li>соединять трансформеры (к Оптимусу Прайму и Бамблби они отношения не имеют - пока) и модули оценки (estimators) в конвейеры машинного обучения (machine learning pipelines).</li>
49 <ul><li>соединять трансформеры (к Оптимусу Прайму и Бамблби они отношения не имеют - пока) и модули оценки (estimators) в конвейеры машинного обучения (machine learning pipelines).</li>
50 <li>использовать кросс-валидацию для оценки модели;</li>
50 <li>использовать кросс-валидацию для оценки модели;</li>
51 <li>устранять ошибки в алгоритмах классификации с помощью кривых обучения и валидации;</li>
51 <li>устранять ошибки в алгоритмах классификации с помощью кривых обучения и валидации;</li>
52 <li>выявлять проблемы смещения и дисперсии с помощью кривых обучения;</li>
52 <li>выявлять проблемы смещения и дисперсии с помощью кривых обучения;</li>
53 <li>работать с переобучением и недообучением, используя кривые валидации;</li>
53 <li>работать с переобучением и недообучением, используя кривые валидации;</li>
54 <li>настраивать модель машинного обучения и оптимизировать гиперпараметры с помощью поиска по решётке;</li>
54 <li>настраивать модель машинного обучения и оптимизировать гиперпараметры с помощью поиска по решётке;</li>
55 <li>читать и правильно интерпретировать матрицу ошибок;</li>
55 <li>читать и правильно интерпретировать матрицу ошибок;</li>
56 <li>строить и правильно толковать ROC-кривую.</li>
56 <li>строить и правильно толковать ROC-кривую.</li>
57 </ul><ul><li>использовать ансамбль методов с различными классификаторами;</li>
57 </ul><ul><li>использовать ансамбль методов с различными классификаторами;</li>
58 <li>комбинировать разные алгоритмы классификации;</li>
58 <li>комбинировать разные алгоритмы классификации;</li>
59 <li>знать, как оценить и настроить ансамбль моделей классификации.</li>
59 <li>знать, как оценить и настроить ансамбль моделей классификации.</li>
60 </ul><p>На этом уровне дата-сайентист углубляется в конкретную специализацию - и разбег по требованиям может быть очень большим. Однако каждому благородному дону, то есть сеньору, точно придётся работать со сложными датасетами: текстом, изображениями, аудио (голос) и видео. Поэтому к навыкам среднего уровня добавится вот что:</p>
60 </ul><p>На этом уровне дата-сайентист углубляется в конкретную специализацию - и разбег по требованиям может быть очень большим. Однако каждому благородному дону, то есть сеньору, точно придётся работать со сложными датасетами: текстом, изображениями, аудио (голос) и видео. Поэтому к навыкам среднего уровня добавится вот что:</p>
61 <ul><li>алгоритм кластеризации (обучение без учителя);</li>
61 <ul><li>алгоритм кластеризации (обучение без учителя);</li>
62 <li>k-средние;</li>
62 <li>k-средние;</li>
63 <li>глубокое обучение;</li>
63 <li>глубокое обучение;</li>
64 <li>нейронные сети;</li>
64 <li>нейронные сети;</li>
65 <li>библиотеки Keras, TensorFlow, Theano;</li>
65 <li>библиотеки Keras, TensorFlow, Theano;</li>
66 <li>основы разработки в облачных сервисах: AWS, Azure.</li>
66 <li>основы разработки в облачных сервисах: AWS, Azure.</li>
67 </ul><p><strong>Дополнительно:</strong>здесь не повредит понимание различий между искусственным интеллектом, машинным обучением и глубоким обучением. У нас как раз есть<a>статья на эту тему</a>.</p>
67 </ul><p><strong>Дополнительно:</strong>здесь не повредит понимание различий между искусственным интеллектом, машинным обучением и глубоким обучением. У нас как раз есть<a>статья на эту тему</a>.</p>
68 <p>Итак, чтобы стать специалистом базового уровня, понадобится от 6 до 12 месяцев. Вырасти с базового уровня до среднего можно за 7-18 месяцев. Продвинутый уровень потребует ещё от 18 до 48 месяцев.</p>
68 <p>Итак, чтобы стать специалистом базового уровня, понадобится от 6 до 12 месяцев. Вырасти с базового уровня до среднего можно за 7-18 месяцев. Продвинутый уровень потребует ещё от 18 до 48 месяцев.</p>
69 <p>Конечно, это приблизительные сроки. Многое зависит от бэкграунда: тем, кто неплохо прокачан в физике, математике, естественных и компьютерных науках, работал инженером или финансистом, будет гораздо проще. Но в первую очередь важны усилия и время, которые вы вкладываете в изучение Data Science, - в общем, никакой магии. Просто берём и делаем.</p>
69 <p>Конечно, это приблизительные сроки. Многое зависит от бэкграунда: тем, кто неплохо прокачан в физике, математике, естественных и компьютерных науках, работал инженером или финансистом, будет гораздо проще. Но в первую очередь важны усилия и время, которые вы вкладываете в изучение Data Science, - в общем, никакой магии. Просто берём и делаем.</p>
70 <p>На курсе "<a>Профессии Data Scientist</a>" мы даём не только базовые знания, но и часть навыков среднего и продвинутого уровней. В итоге у вас появятся портфолио проектов, стаж не менее года, заряженные единомышленники и компетентные наставники. Приходите!</p>
70 <p>На курсе "<a>Профессии Data Scientist</a>" мы даём не только базовые знания, но и часть навыков среднего и продвинутого уровней. В итоге у вас появятся портфолио проектов, стаж не менее года, заряженные единомышленники и компетентные наставники. Приходите!</p>
71 - <a>Научитесь: Профессия Data scientist + ИИ Узнать больше</a>
71 + <a><b>Бесплатный курс по Python </b>Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>