Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы
2026-02-21 02:58 Diff

#Подкаст

  • 2 фев 2023
  • 0

Подкаст «Люди и код», выпуск №57: Влад Гоцуляк.

Иллюстрация: Polina Vari / Skillbox Media

Фанат Free Software Foundation, использует Linux и недолюбливает Windows. Пишет истории про кодинг и программы на Python. Влюблён в Lisp, но пока что не умеет на нём программировать.

Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции по big data для студентов кафедры БИТ в МФТИ.

  • Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.
  • Из каких источников в систему приходят сырые данные.
  • Куда данные сохраняются и в каком виде.
  • Как предварительно обрабатываются и готовятся данные.
  • Как отбираются данные для обработки и анализа.
  • Как происходит анализ в DS и чем он отличается от традиционной аналитики.
  • Какие решения и инструменты существуют для анализа и изучения данных в data science.
  • Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.
  • Чем занимается отдел data science. Какие роли связаны с data science.
  • Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.
  • Насколько data science — программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.
  • Какие языки и для каких задач используются.
  • Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.
  • Какие зарплаты, специализации и перспективы есть в data science.
Бесплатный курс по Python ➞
Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу