0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p><a>#статьи</a></p>
1
<p><a>#статьи</a></p>
2
<ul><li>31 май 2021</li>
2
<ul><li>31 май 2021</li>
3
<li>0</li>
3
<li>0</li>
4
</ul><p>Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.</p>
4
</ul><p>Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.</p>
5
<p>Кандидат философских наук, специалист по математическому моделированию. Пишет про Data Science, AI и программирование на Python.</p>
5
<p>Кандидат философских наук, специалист по математическому моделированию. Пишет про Data Science, AI и программирование на Python.</p>
6
<p>У статистики есть несколько различных определений. Одно из самых простых и точных - это "наука о сборе и классификации цифровых данных". А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.</p>
6
<p>У статистики есть несколько различных определений. Одно из самых простых и точных - это "наука о сборе и классификации цифровых данных". А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.</p>
7
<p>В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:</p>
7
<p>В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:</p>
8
<ul><li>анализа, преобразования и очистки данных;</li>
8
<ul><li>анализа, преобразования и очистки данных;</li>
9
<li>оценки и оптимизации моделей машинного обучения;</li>
9
<li>оценки и оптимизации моделей машинного обучения;</li>
10
<li>понимания данных и презентации результатов.</li>
10
<li>понимания данных и презентации результатов.</li>
11
</ul><p>Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.</p>
11
</ul><p>Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.</p>
12
<p>Задача описательной статистики, как следует из названия, - дать хорошее описание данных. Она не для предсказаний, выводов или преобразований - только внешняя форма данных, измеренная в показателях.</p>
12
<p>Задача описательной статистики, как следует из названия, - дать хорошее описание данных. Она не для предсказаний, выводов или преобразований - только внешняя форма данных, измеренная в показателях.</p>
13
<p>Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами<em></em>или, если точнее,<a>мерами центральной тенденции</a>), - это:</p>
13
<p>Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами<em></em>или, если точнее,<a>мерами центральной тенденции</a>), - это:</p>
14
<ul><li><strong>Среднее</strong>: чаще всего вычисляется как среднее арифметическое. Просто складываем все значения, делим на их количество - и вуаля, средняя температура по больнице готова.</li>
14
<ul><li><strong>Среднее</strong>: чаще всего вычисляется как среднее арифметическое. Просто складываем все значения, делим на их количество - и вуаля, средняя температура по больнице готова.</li>
15
<li><strong>Медиана</strong>: если выстроить все данные по возрастанию и найти середину этого ряда, это как раз и будет медиана. Одна половина из значений данных будет больше медианы, а другая - меньше.</li>
15
<li><strong>Медиана</strong>: если выстроить все данные по возрастанию и найти середину этого ряда, это как раз и будет медиана. Одна половина из значений данных будет больше медианы, а другая - меньше.</li>
16
<li><strong>Мода</strong>: значение в наборе данных, которое встречается чаще всего. Запомнить очень легко: мода - самое популярное из значений, то, что "носят все".</li>
16
<li><strong>Мода</strong>: значение в наборе данных, которое встречается чаще всего. Запомнить очень легко: мода - самое популярное из значений, то, что "носят все".</li>
17
</ul><p>Кроме трёх перечисленных, есть и другие статистические показатели - например,<a>меры рассеяния</a>. Главная из них - дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.</p>
17
</ul><p>Кроме трёх перечисленных, есть и другие статистические показатели - например,<a>меры рассеяния</a>. Главная из них - дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.</p>
18
<p>Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о <strong>распределении</strong>.</p>
18
<p>Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о <strong>распределении</strong>.</p>
19
<p>Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое "раздаёт" им эти вероятности.</p>
19
<p>Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое "раздаёт" им эти вероятности.</p>
20
<p>В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про<a>математику для джунов</a>.</p>
20
<p>В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про<a>математику для джунов</a>.</p>
21
<p>Возможно, вы уже слышали про колокол нормального распределения, или<a>гауссиану</a>: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.</p>
21
<p>Возможно, вы уже слышали про колокол нормального распределения, или<a>гауссиану</a>: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.</p>
22
Распределение размеров чашелистика ириса разноцветного. Изображение: Qwfp / Pbroks13 /<a>Wikimedia Commons</a><p>Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии - все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.</p>
22
Распределение размеров чашелистика ириса разноцветного. Изображение: Qwfp / Pbroks13 /<a>Wikimedia Commons</a><p>Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии - все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.</p>
23
<p><a>Распределение Пуассона</a>тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени - при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.</p>
23
<p><a>Распределение Пуассона</a>тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени - при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.</p>
24
При ƛ = 10 горка Пуассона похожа на колокол Гаусса. Будьте внимательны!<p>Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.</p>
24
При ƛ = 10 горка Пуассона похожа на колокол Гаусса. Будьте внимательны!<p>Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.</p>
25
<p>Существуют и <a>другие распределения</a>, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.</p>
25
<p>Существуют и <a>другие распределения</a>, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.</p>
26
<p>Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться<strong>выборкой</strong> - взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.</p>
26
<p>Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться<strong>выборкой</strong> - взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.</p>
27
<p>Но тут сразу же возникают вопросы:</p>
27
<p>Но тут сразу же возникают вопросы:</p>
28
<ul><li>Сколько и каких котов отобрать для замера?</li>
28
<ul><li>Сколько и каких котов отобрать для замера?</li>
29
<li>Почему именно этих, а не других?</li>
29
<li>Почему именно этих, а не других?</li>
30
<li>Какие есть гарантии, что вычисленное значение действительно будет средней шириной морды всех котов России?</li>
30
<li>Какие есть гарантии, что вычисленное значение действительно будет средней шириной морды всех котов России?</li>
31
</ul><p><a>Семплирование</a> - это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства<strong>генеральной совокупности</strong> - то есть свойства всех котов страны.</p>
31
</ul><p><a>Семплирование</a> - это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства<strong>генеральной совокупности</strong> - то есть свойства всех котов страны.</p>
32
Качественная выборка сохраняет свойства всей генеральной совокупности<p>Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо "сидеть" во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют<strong>релевантной</strong>.</p>
32
Качественная выборка сохраняет свойства всей генеральной совокупности<p>Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо "сидеть" во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют<strong>релевантной</strong>.</p>
33
<p>Кстати, статистика и котики - близнецы-братья. После выхода<a>одноимённой книги</a>Владимира Савельева мы говорим "статистика", а подразумеваем "котики", и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.</p>
33
<p>Кстати, статистика и котики - близнецы-братья. После выхода<a>одноимённой книги</a>Владимира Савельева мы говорим "статистика", а подразумеваем "котики", и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.</p>
34
<p>В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.</p>
34
<p>В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.</p>
35
<p>Аналогично тому, как производится выборка из генеральной совокупности, дата-сайентисты из готового датасета выделяют тренировочный набор. Именно на этой "выборке второго порядка" модель учится делать предсказания.</p>
35
<p>Аналогично тому, как производится выборка из генеральной совокупности, дата-сайентисты из готового датасета выделяют тренировочный набор. Именно на этой "выборке второго порядка" модель учится делать предсказания.</p>
36
<p>Прочитайте<a>нашу статью</a>о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.</p>
36
<p>Прочитайте<a>нашу статью</a>о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.</p>
37
<p><strong>Смещение</strong>происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж - независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра "Город проживания".</p>
37
<p><strong>Смещение</strong>происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж - независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра "Город проживания".</p>
38
<p>Чаще всего причиной смещения являются:</p>
38
<p>Чаще всего причиной смещения являются:</p>
39
<ul><li>неправильный сбор данных в датасет: например, в него попали только краснодарцы - любители Парижа;</li>
39
<ul><li>неправильный сбор данных в датасет: например, в него попали только краснодарцы - любители Парижа;</li>
40
<li>неправильное формирование тренировочного набора из датасета;</li>
40
<li>неправильное формирование тренировочного набора из датасета;</li>
41
<li>неправильное измерение ошибок.</li>
41
<li>неправильное измерение ошибок.</li>
42
</ul><p>Когда мы неверно собираем данные, говорят о <a>систематической ошибке отбора</a>. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, - впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.</p>
42
</ul><p>Когда мы неверно собираем данные, говорят о <a>систематической ошибке отбора</a>. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, - впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.</p>
43
О доброте дельфинов мы знаем только от спасённых ими людей. Фото:<a>Pixabay</a><p>Другая ошибка -<a>ошибка меткого стрелка</a> - происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.</p>
43
О доброте дельфинов мы знаем только от спасённых ими людей. Фото:<a>Pixabay</a><p>Другая ошибка -<a>ошибка меткого стрелка</a> - происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.</p>
44
<p>Причин, вызывающих смещение, так много, что Марк Твен заметил: "Существует три вида лжи: ложь, наглая ложь и статистика". Например:</p>
44
<p>Причин, вызывающих смещение, так много, что Марк Твен заметил: "Существует три вида лжи: ложь, наглая ложь и статистика". Например:</p>
45
<ul><li><strong>Эффект низкой/высокой базы.</strong>Если в финансовом отчёте найти самый низкий показатель прибыли, то на его фоне любой другой результат будет выглядеть как достижение. И наоборот: если хотите показать, что ученик перестал прогрессировать, сравнивайте текущие оценки с его лучшими результатами за все годы обучения.</li>
45
<ul><li><strong>Эффект низкой/высокой базы.</strong>Если в финансовом отчёте найти самый низкий показатель прибыли, то на его фоне любой другой результат будет выглядеть как достижение. И наоборот: если хотите показать, что ученик перестал прогрессировать, сравнивайте текущие оценки с его лучшими результатами за все годы обучения.</li>
46
<li><strong>Сокращение рассматриваемого периода.</strong>Если хочется доказать, что рекламная кампания не приносит результатов, надо просто найти период, когда деньги уже потрачены, а эффекта ещё нет. И рассматривать только его.</li>
46
<li><strong>Сокращение рассматриваемого периода.</strong>Если хочется доказать, что рекламная кампания не приносит результатов, надо просто найти период, когда деньги уже потрачены, а эффекта ещё нет. И рассматривать только его.</li>
47
<li><strong>Исключение из выборки.</strong>Если вы измеряете результативность методики снижения веса, то можно выкидывать из выборки участников, которые отказались от методики, не дойдя до конца. Это существенно "повысит" эффективность методики.</li>
47
<li><strong>Исключение из выборки.</strong>Если вы измеряете результативность методики снижения веса, то можно выкидывать из выборки участников, которые отказались от методики, не дойдя до конца. Это существенно "повысит" эффективность методики.</li>
48
<li><strong>Ну и, конечно же, классика</strong>: "Интернет-опрос населения показал, что 100% населения пользуются интернетом".</li>
48
<li><strong>Ну и, конечно же, классика</strong>: "Интернет-опрос населения показал, что 100% населения пользуются интернетом".</li>
49
</ul><p>Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.</p>
49
</ul><p>Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.</p>
50
<p>Если пить "Боржоми" уже поздно (датасет уже сформирован), обязательно спросите себя: "Не смещены ли мои данные?" - а они наверняка смещены, "Куда и почему они смещены?" и "Можно ли с этим жить?"</p>
50
<p>Если пить "Боржоми" уже поздно (датасет уже сформирован), обязательно спросите себя: "Не смещены ли мои данные?" - а они наверняка смещены, "Куда и почему они смещены?" и "Можно ли с этим жить?"</p>
51
<p><a>Дисперсия</a> - это величина, показывающая, как именно и насколько сильно разбросаны значения - например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.</p>
51
<p><a>Дисперсия</a> - это величина, показывающая, как именно и насколько сильно разбросаны значения - например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.</p>
52
<p>Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:</p>
52
<p>Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:</p>
53
<p>(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5</p>
53
<p>(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5</p>
54
<p>Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка - это случайное целое значение от 1 до 10.</p>
54
<p>Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка - это случайное целое значение от 1 до 10.</p>
55
Высокая и низкая дисперсия<p>Изрешечённая пулями мишень - отличная иллюстрация распределения. Дисперсия здесь - величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.</p>
55
Высокая и низкая дисперсия<p>Изрешечённая пулями мишень - отличная иллюстрация распределения. Дисперсия здесь - величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.</p>
56
<p>Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в <a>дилемму</a>: уменьшение одной из величин неизбежно приводит к росту другой.</p>
56
<p>Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в <a>дилемму</a>: уменьшение одной из величин неизбежно приводит к росту другой.</p>
57
<p>Если не вдаваться в детали, обучение модели - это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.</p>
57
<p>Если не вдаваться в детали, обучение модели - это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.</p>
58
<p>Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже - так и получается смещение.</p>
58
<p>Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже - так и получается смещение.</p>
59
<p>С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.</p>
59
<p>С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.</p>
60
<p>Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.</p>
60
<p>Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.</p>
61
<p>Простые модели, напротив, упускают важные параметры и "бьют кучно, но мимо". Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.</p>
61
<p>Простые модели, напротив, упускают важные параметры и "бьют кучно, но мимо". Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.</p>
62
<p>В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.</p>
62
<p>В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.</p>
63
<p>Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В <a>исследовании</a>2009 года утверждается, что люди используют эвристику "высокое смещение + низкая дисперсия": мы заблуждаемся, зато очень уверенно.</p>
63
<p>Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В <a>исследовании</a>2009 года утверждается, что люди используют эвристику "высокое смещение + низкая дисперсия": мы заблуждаемся, зато очень уверенно.</p>
64
<p>Учтите это, если захотите сделать свой ИИ более похожим на человека.</p>
64
<p>Учтите это, если захотите сделать свой ИИ более похожим на человека.</p>
65
<p>Когда изменения одной величины сопутствуют изменениям другой, говорят о <a>корреляции</a>. Главное, что необходимо о ней знать:<strong>корреляция не означает причинно-следственную связь</strong>.</p>
65
<p>Когда изменения одной величины сопутствуют изменениям другой, говорят о <a>корреляции</a>. Главное, что необходимо о ней знать:<strong>корреляция не означает причинно-следственную связь</strong>.</p>
66
<p><a>Линейная корреляция</a> - это когда изменения одной величины пропорциональны изменениям другой. Она может быть:</p>
66
<p><a>Линейная корреляция</a> - это когда изменения одной величины пропорциональны изменениям другой. Она может быть:</p>
67
<ul><li>положительной - обе величины растут в одну сторону;</li>
67
<ul><li>положительной - обе величины растут в одну сторону;</li>
68
<li>отрицательной - одна величина растёт, другая уменьшается;</li>
68
<li>отрицательной - одна величина растёт, другая уменьшается;</li>
69
<li>а также сильной или слабой, независимо от направления.</li>
69
<li>а также сильной или слабой, независимо от направления.</li>
70
</ul><p>Статистическую связь между переменными исследуют с помощью<a>корреляционного анализа</a>. Его основная задача - оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.</p>
70
</ul><p>Статистическую связь между переменными исследуют с помощью<a>корреляционного анализа</a>. Его основная задача - оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.</p>
71
<p>И ещё раз, потому что действительно важно:<strong>корреляция ни в коем случае не означает причинно-следственную связь.</strong>Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.</p>
71
<p>И ещё раз, потому что действительно важно:<strong>корреляция ни в коем случае не означает причинно-следственную связь.</strong>Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.</p>
72
<p>Кстати, проект<a>Spurious Correlations</a>("Ложные корреляции") публикует графики корреляций между совершенно неожиданными статистическими показателями - например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.</p>
72
<p>Кстати, проект<a>Spurious Correlations</a>("Ложные корреляции") публикует графики корреляций между совершенно неожиданными статистическими показателями - например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.</p>
73
Возраст победительниц конкурса "Мисс Америка" и количество убийств, совершённых с помощью пара и горячих предметов. Изображение: Tyler Vigen /<a>Spurious Correlations</a><p>Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС - синдрома поиска глубинной связи.</p>
73
Возраст победительниц конкурса "Мисс Америка" и количество убийств, совершённых с помощью пара и горячих предметов. Изображение: Tyler Vigen /<a>Spurious Correlations</a><p>Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС - синдрома поиска глубинной связи.</p>
74
<p>Data Science - не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.</p>
74
<p>Data Science - не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.</p>
75
<p>Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика - фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.</p>
75
<p>Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика - фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.</p>
76
<p>В нашем курсе "<a>Профессия Data Scientist</a>" статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!</p>
76
<p>В нашем курсе "<a>Профессия Data Scientist</a>" статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!</p>
77
<a><b>Бесплатный курс по Python ➞</b>Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>
77
<a><b>Бесплатный курс по Python ➞</b>Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>