Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-21

1 <a>#статьи</a>

2 <ul><li>27 янв 2021</li>

3 <li>0</li>

4 </ul>Говорят, что всю математику знают только Бог и Григорий Перельман. Но джуниору на собеседовании вся и не нужна.

5 vlada_maestro / shutterstock

6 Кандидат философских наук, специалист по математическому моделированию. Пишет про Data Science, AI и программирование на Python.

7 Возможно, наступит время, когда дата-сайентисту вообще не нужно будет знать математику, а вся работа сведётся к нажатию на кнопку Analyze data. Но пока для начала карьеры в Data Science требуется знать хотя бы базовые математические понятия.

8 Причина простая: уровень соискателей-джуниоров примерно одинаков. Поэтому из двух кандидатов скорее выберут знакомого с принципами, на которых построены инструменты анализа данных, машинного обучения и глубокого обучения.

9 Мы отобрали семь фундаментальных тем из вопросов к собеседованиям на вакансию Junior Data Scientist:

10 <ul><li>по теории вероятностей,</li>

11 <li>линейной алгебре,</li>

12 <li>математическому анализу,</li>

13 <li>математической статистике.</li>

14 </ul>И написали к ним краткие ответы-шпаргалки. Держите!

15 Сложность:1/3

16 Бросим игральный кубик десять раз. Затем запишем среднее значение всех десяти бросков: сложим все выпавшие очки и поделим на 10.

17 После этого подбросим снова, но теперь уже серией из двадцати бросков, и также запишем среднее. Сумму выпавших очков поделим на 20.

18 Закон больших чисел утверждает, что при увеличении количества бросков от серии к серии среднее арифметическое всех выпавших в ней очков будет стремиться к определённому числу, которое называется<a>математическим ожиданием</a>.

19 Для игрального кубика оно равно среднему арифметическому очков на его шести гранях: (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21 / 6 = 3,5.

20 Для других случайных величин математическое ожидание будет вычисляться иначе, но суть останется та же: при увеличении количествареальныхпопыток случайная величина усредняется. А точнее, стремится к своемутеоретически вычисленномуожидаемому значению. Закон, таким образом, связывает реальность и теорию.

21 Для Data Science этот закон настолько фундаментален, что кажется абсолютно очевидным: чем больше данных, тем точнее предсказание. Впору переименовывать его в "Закон больших данных".

22 Сложность:1/3

23 Внешне матрица - это прямоугольная таблица из m строк и n столбцов, состоящая, как правило, из чисел. Если в матрице только одна строка или только один столбец, то получается вектор. Вектор - это тоже матрица.

24 Матрицы можно<a>умножать на число</a>, а матрицы одинакового размера - ещё и складывать между собой поэлементно.Умножениематрицы на матрицу сложнее, чем умножение чисел, и лучше всего постигается<a>в упражнениях</a>. Главное - помнить, что строка умножается на столбец и что менять местами две умножаемых матрицы нельзя.

25 Строка матрицы А поэлементно умножается на столбец матрицы B, затем результат складывается в элемент на позиции {номер строки из А, номер столбца из B}.<a>Википедия</a>Матрицу правильнее всего понимать как "численный протокол" некоего преобразования. Например, чтобы преобразовать один вектор в другой, нужно умножить его на соответствующую матрицу. Более сложные преобразования тоже задаются или матрицами, или похожими на них объектами, например тензорами (которые сами состоят из матриц).

26 В Data Science без векторов и матриц никуда. Например,<a>метод главных компонент</a>, который применяют, чтобы избавиться от лишних данных, использует вычисление собственных векторов матриц. А <a>латентно-семантический анализ</a>, необходимый для "понимания" машинами смысла слов, основан на преобразовании матриц и вычислении скалярного произведения векторов.

27 Сложность:2/3

28 Градиент, если простыми словами, это вектор-указатель. Стрелка указывает в направлении наибольшего роста какой-нибудь величины, а длина этого вектора соответствует скорости роста этой величины.

29 Градиент высоты: чем быстрее растёт высота горы, тем длиннее векторВекторы обычно рассматривают не в одной точке: точками покрывают сразу весь интересующий участок - и на нём уже рисуют градиенты. Если к этому добавить цвет, чтобы подчеркнуть размеры и направленность векторов, то получаются занятные абстрактные композиции.

30 В deep learning процесс обучения нейросети состоит в том, что мы много-много раз меняем вес каждого нейрона (его авторитет) в зависимости от размера ошибки, которую он передал нейронам следующего слоя. Совокупность величин этих ошибок образует поверхность в многомерном пространстве весов. Задача - найти минимум этой поверхности, то есть "яму" или "ложбину", где ошибки будут наименьшими.

31 Чтобы найти этот минимум, и нужен градиент. Он, правда, указывает в сторону максимума, но ничто не мешает идти в прямо противоположном направлении - спускаться в направленииантиградиента. Поэтому класс этих методов и называетсяградиентным спуском.

32 Сложность:1/3

33 Эта теорема говорит, насколько нужно изменить ожидания, когда мы узнаём новый факт или наблюдаем новое свидетельство.

34 Условие задачи:Энтомолог нашёл жука с узором на корпусе и надеется, что это редкий подвид. Надежда его основана на том, что жуки редкого подвида в 98% случаях с узором, а среди обычных жуков узор имеют только 5%. Редкий подвид действительно редок: таких жуков всего 0,1% от всей популяции.

35 Вопрос:Какова вероятность, что найденный жук с узором относится к редкому подвиду?

36 Теорему Байеса и связанную с нейформулу полной вероятностилучше всего изучать на задачах, подобных этой. Самое сложное, что вас ждёт, - это вычисление дробей и рисование древовидных диаграмм. По <a>этой ссылке</a>можно посмотреть и доказательство формулы, и несколько примеров.

37 В любой непонятной ситуации рисуй диаграмму полной вероятности. Энтомолог, прости, но жук, скорее всего, обычный.<a>Википедия</a>Оценка потенциального заёмщика (кредитный скоринг), определение точности медицинского теста, поиск признаков банковского мошенничества (антифрод) или взлома корпоративной сети - все эти прикладные задачи Data Science используют байесовский подход.

38 Сложность:1/3

39 Распределение - просто закон соответствия одной величины другой. Например, в теории вероятностей, где появился этот термин, это было соответствие между значением случайной величины и вероятностью того, что она примет это значение.

40 Распределение вероятностей для граней игрального кубика - прямая линия на уровне ⅙, или 16,67% вероятностиНо дата-сайентисту распределения требуются не для вероятностей, а чтобы понять, какой именно процесс скрывается за данными. Поэтому ему (то есть вам) нужно запомнить названия, графики и параметры всех<a>основных распределений</a>, благо их не так много.

41 Например, у знаменитой гауссианы, или<a>нормального распределения</a>, есть всего два параметра, которые влияют на форму графика:μ(произносится "мю"), двигающий "колокол" вправо-влево, и σ(сигма) - определяющий одновременно и ширину, и высоту.

42 Так что если график ваших данных внешне напоминает какое-нибудь распределение, то первым делом нужно подогнать параметры в формуле этого распределения так, чтобы его итоговый вид примерно совпадал с вашими данными. Если это удалось, тогда то, что вы сделали с данными, называетсярегрессией.

43 Сложность:1/3

44 Регрессия, простыми словами, это закон, определяющий соотношения между средними значениями каких-либо величин. Например, средний рост сыновей линейно зависит от среднего роста отцов: чем выше средний рост отцов, тем выше и средний рост сыновей.

45 В Data Science регрессия возникает в задаче исследования реальных данных, которые визуально часто выглядят как группы точек на координатной плоскости.

46 Если через эти точки можно провести линию, которая соответствует их общему тренду и не слишком далека от каждой из них, говорят, что формула, задающая эту линию,аппроксимирует (приближает) данные.

47 Иными словами, в задачах регрессии мы заменяем (аппроксимируем) реальные значения средними и исследуем соответствие уже между ними. Это не только проще для вычислений, но и даёт основания для прогноза и предсказаний. А дата-сайентиста хлебом не корми - дай что-нибудь предсказать.

48 Сложность:2/3

49 Статистически значимая величина - это "скорее всего, неслучайная" или "маловероятно, что случайная" величина. Мера случайности и неслучайности определяется по-разному, но всегда заранее.

50 Статистическая значимость используется при проверкестатистических гипотез. Например, мы предположили, что<a>зелюки в основном хрюкочут</a>. Это будет нашей основной статистической гипотезой. Альтернативной гипотезой будем считать, что зелюки в основном не хрюкочут, а пыряются. И договоримся, что величина статистической значимости будет, например, 5%.

51 Возьмём результаты наблюдения за зелюками. Если хрюкочущих зелюков в них окажется 95% или больше, будем говорить, что основная гипотеза прошла статистическую проверку при уровне значимостиα(альфа) = 0,05. А количество альтернативных (пыряющихся) зелюков не оказалось статистически значимой величиной.

52 Другими словами, уровеньα - этовероятность отклонитьосновную гипотезу. Если гипотеза истинна, то есть в реальности зелюки действительно в основном хрюкочут, это ещё и вероятность совершить<a>ошибку первого рода</a> - ошибочное отвержение, или ложную тревогу. Если гипотеза неверна и зелюки таки больше пыряются, чем хрюкочут, то величинаα - это вероятностьне отвергнуть ложную гипотезуи допустить<a>ошибку второго рода</a>, которую называют ошибочным принятием или пропуском события.

53 "Математику уже затем учить надо, что она повышает шансы на оффер", - гласит старинная поговорка дата-сайентистов.

54 По неведомым науке причинам математика удивительно эффективна на собеседованиях: придаёт уверенности словам, располагает к вам интервьюеров и повышает ваш авторитет в глазах людей, совершенно с ней незнакомых. Есть даже подозрения, что существует мировой заговор математиков, которые: а) проникли везде и всюду; б) поддерживают друг друга всегда и во всём.

55 <a>Бесплатный курс по Python ➞Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>