HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-21
1 <p><a>#статьи</a></p>
1 <p><a>#статьи</a></p>
2 <ul><li>4 авг 2025</li>
2 <ul><li>4 авг 2025</li>
3 <li>0</li>
3 <li>0</li>
4 </ul><h2>Что такое корреляция в статистике и как её правильно понимать</h2>
4 </ul><h2>Что такое корреляция в статистике и как её правильно понимать</h2>
5 <p>Учимся находить связи в данных и не путать их с совпадениями.</p>
5 <p>Учимся находить связи в данных и не путать их с совпадениями.</p>
6 <p>Иллюстрация: Оля Ежак для Skillbox Media</p>
6 <p>Иллюстрация: Оля Ежак для Skillbox Media</p>
7 <p>Автор. На 50% состоит из музыки и ещё на 50% - из любви к интересным людям.</p>
7 <p>Автор. На 50% состоит из музыки и ещё на 50% - из любви к интересным людям.</p>
8 <p>Что общего у потребления сливочного масла в США и литовских ветряных электростанций? А у мороженого и солнечных ожогов? Здравый смысл подсказывает, что почти ничего. Однако статистика утверждает, что между этими показателями есть математическая зависимость, которую называют корреляцией. Давайте с экспертом разберёмся, что это и как её посчитать.</p>
8 <p>Что общего у потребления сливочного масла в США и литовских ветряных электростанций? А у мороженого и солнечных ожогов? Здравый смысл подсказывает, что почти ничего. Однако статистика утверждает, что между этими показателями есть математическая зависимость, которую называют корреляцией. Давайте с экспертом разберёмся, что это и как её посчитать.</p>
9 <p><strong>Содержание</strong></p>
9 <p><strong>Содержание</strong></p>
10 <ul><li><a>Что означает корреляция</a></li>
10 <ul><li><a>Что означает корреляция</a></li>
11 <li><a>Что такое каузальность и как она связана с корреляцией</a></li>
11 <li><a>Что такое каузальность и как она связана с корреляцией</a></li>
12 <li><a>Для чего нужна корреляция</a></li>
12 <li><a>Для чего нужна корреляция</a></li>
13 <li><a>Как рассчитать коэффициент корреляции</a></li>
13 <li><a>Как рассчитать коэффициент корреляции</a></li>
14 </ul><p><strong>Эксперт по анализу данных</strong></p>
14 </ul><p><strong>Эксперт по анализу данных</strong></p>
15 <p>Генеральный директор компании kongru.consulting, автор телеграм-канала "<a>Аналитика сегодня</a>".</p>
15 <p>Генеральный директор компании kongru.consulting, автор телеграм-канала "<a>Аналитика сегодня</a>".</p>
16 <p>Корреляция - статистическая мера, которая отражает степень взаимосвязи между двумя переменными. Если при изменении значения одной переменной систематически меняется значение другой (увеличивается или уменьшается) и эта закономерность прослеживается на большом количестве наблюдений, то такие переменные считаются коррелирующими.</p>
16 <p>Корреляция - статистическая мера, которая отражает степень взаимосвязи между двумя переменными. Если при изменении значения одной переменной систематически меняется значение другой (увеличивается или уменьшается) и эта закономерность прослеживается на большом количестве наблюдений, то такие переменные считаются коррелирующими.</p>
17 <p>Например, корреляция существует между температурой воздуха и продажами мороженого: с повышением температуры увеличивается и объём продаж мороженого. И наоборот: в мороз мороженое почти никому не нужно.</p>
17 <p>Например, корреляция существует между температурой воздуха и продажами мороженого: с повышением температуры увеличивается и объём продаж мороженого. И наоборот: в мороз мороженое почти никому не нужно.</p>
18 <p>Корреляцию можно визуально представить с помощью<a>диаграммы рассеивания</a> - графика, на котором данные отображаются точками в декартовой системе координат. Вертикальная ось (Y) и горизонтальная ось (X) представляют две разные переменные. Каждая точка на графике соответствует одному наблюдению, а её положение определяется значениями обеих переменных для этого конкретного наблюдения.</p>
18 <p>Корреляцию можно визуально представить с помощью<a>диаграммы рассеивания</a> - графика, на котором данные отображаются точками в декартовой системе координат. Вертикальная ось (Y) и горизонтальная ось (X) представляют две разные переменные. Каждая точка на графике соответствует одному наблюдению, а её положение определяется значениями обеих переменных для этого конкретного наблюдения.</p>
19 <p>Ниже представлен пример диаграммы рассеивания, которая иллюстрирует зависимость тормозного пути автомобиля от скорости движения. Ось Y отражает тормозную дистанцию автомобиля, а ось X - его скорость. Каждая точка - это отдельное наблюдение, которое показывает связь между этими параметрами: чем выше и правее находится точка, тем выше была скорость автомобиля перед торможением и тем длиннее оказался его тормозной путь.</p>
19 <p>Ниже представлен пример диаграммы рассеивания, которая иллюстрирует зависимость тормозного пути автомобиля от скорости движения. Ось Y отражает тормозную дистанцию автомобиля, а ось X - его скорость. Каждая точка - это отдельное наблюдение, которое показывает связь между этими параметрами: чем выше и правее находится точка, тем выше была скорость автомобиля перед торможением и тем длиннее оказался его тормозной путь.</p>
20 Пример диаграммы рассеивания, на которой изображена корреляция между скоростью и тормозным путём автомобиля<em>Изображение: <a>Wikimedia Commons</a> / Skillbox Media</em><p>В предыдущем разделе мы рассмотрели вполне логичную зависимость: чем выше скорость, тем длиннее тормозной путь. Теперь вернёмся к примеру из введения - странной корреляции между увеличением числа ветряных электростанций в Литве и ростом потребления сливочного масла в США.</p>
20 Пример диаграммы рассеивания, на которой изображена корреляция между скоростью и тормозным путём автомобиля<em>Изображение: <a>Wikimedia Commons</a> / Skillbox Media</em><p>В предыдущем разделе мы рассмотрели вполне логичную зависимость: чем выше скорость, тем длиннее тормозной путь. Теперь вернёмся к примеру из введения - странной корреляции между увеличением числа ветряных электростанций в Литве и ростом потребления сливочного масла в США.</p>
21 <p>Между этими двумя значениями действительно есть корреляция, и это видно на графике ниже. Чёрная линия отражает потребление масла на душу населения в США, красная - количество ветряных электростанций в Литве. Вывод напрашивается сам собой: литовские ветряки надувают масло в тарелки американцев! Звучит как кликабельный заголовок для новости.</p>
21 <p>Между этими двумя значениями действительно есть корреляция, и это видно на графике ниже. Чёрная линия отражает потребление масла на душу населения в США, красная - количество ветряных электростанций в Литве. Вывод напрашивается сам собой: литовские ветряки надувают масло в тарелки американцев! Звучит как кликабельный заголовок для новости.</p>
22 <p>Конечно, вы уже догадались, что это всего лишь совпадение. В статистике такое явление называют ложной корреляцией. Если анализировать тысячи различных показателей, вы неизбежно обнаружите пары переменных с сильной математической корреляцией, хотя между ними нет логической связи. В таких случаях принято считать, что между переменными нет каузальности - то есть реальной причинно-следственной связи, когда изменение одного явления непосредственно влияет на изменение другого.</p>
22 <p>Конечно, вы уже догадались, что это всего лишь совпадение. В статистике такое явление называют ложной корреляцией. Если анализировать тысячи различных показателей, вы неизбежно обнаружите пары переменных с сильной математической корреляцией, хотя между ними нет логической связи. В таких случаях принято считать, что между переменными нет каузальности - то есть реальной причинно-следственной связи, когда изменение одного явления непосредственно влияет на изменение другого.</p>
23 Корреляция не означает каузальность, и график выше наглядно это демонстрирует. Поэтому, если вы видите корреляцию в статистике, знайте, что необязательно эти явления действительно влияют друг на друга<em>Изображение: <a>Suspicious Correlations</a> / Skillbox Media</em><p>Пример со сливочным маслом намеренно абсурдный. Сложности начинаются, когда отсутствие связи не столь очевидно. Например, одно из исследований показало корреляцию между наличием торговых автоматов со снеками в американских школах и уровнем детского ожирения. Вывод напрашивался сам собой: дети получают лёгкий доступ к низкокачественной и высококалорийной еде, а значит, набирают лишний вес. Следовательно, если убрать автоматы из школ, уровень ожирения должен снизиться.</p>
23 Корреляция не означает каузальность, и график выше наглядно это демонстрирует. Поэтому, если вы видите корреляцию в статистике, знайте, что необязательно эти явления действительно влияют друг на друга<em>Изображение: <a>Suspicious Correlations</a> / Skillbox Media</em><p>Пример со сливочным маслом намеренно абсурдный. Сложности начинаются, когда отсутствие связи не столь очевидно. Например, одно из исследований показало корреляцию между наличием торговых автоматов со снеками в американских школах и уровнем детского ожирения. Вывод напрашивался сам собой: дети получают лёгкий доступ к низкокачественной и высококалорийной еде, а значит, набирают лишний вес. Следовательно, если убрать автоматы из школ, уровень ожирения должен снизиться.</p>
24 <p>Вот только оказалось, что это не так. Сразу несколько исследований <a>показали</a>, что наличие автоматов с джанк-фудом никак не влияет на уровень ожирения среди школьников. А значит, это всё же была корреляция, а не каузальность. Если связь оказалась ложной, то причину ожирения нужно искать в чём-то другом. Например, в домашних пищевых привычках, генетической предрасположенности или уровне физической активности.</p>
24 <p>Вот только оказалось, что это не так. Сразу несколько исследований <a>показали</a>, что наличие автоматов с джанк-фудом никак не влияет на уровень ожирения среди школьников. А значит, это всё же была корреляция, а не каузальность. Если связь оказалась ложной, то причину ожирения нужно искать в чём-то другом. Например, в домашних пищевых привычках, генетической предрасположенности или уровне физической активности.</p>
25 <p>В любом случае корреляция становится первым шагом к поиску каузальности. Когда исследователь обнаруживает статистическую взаимосвязь между двумя показателями, это даёт ему основание для более глубокого анализа: проведения экспериментов, построения моделей и тестирования гипотез. То есть у него возникает повод выяснить, существует ли между переменными причинно-следственная связь или это совпадение.</p>
25 <p>В любом случае корреляция становится первым шагом к поиску каузальности. Когда исследователь обнаруживает статистическую взаимосвязь между двумя показателями, это даёт ему основание для более глубокого анализа: проведения экспериментов, построения моделей и тестирования гипотез. То есть у него возникает повод выяснить, существует ли между переменными причинно-следственная связь или это совпадение.</p>
26 <p>В маркетинговой аналитике корреляция встречается повсеместно. Приведу пример из практики. Представьте, что аналитик работает в компании, где заключение сделки требует множества шагов и занимает длительное время. Чтобы оптимизировать процесс, он хочет определить, как коммуникация с пользователем влияет на вероятность покупки.</p>
26 <p>В маркетинговой аналитике корреляция встречается повсеместно. Приведу пример из практики. Представьте, что аналитик работает в компании, где заключение сделки требует множества шагов и занимает длительное время. Чтобы оптимизировать процесс, он хочет определить, как коммуникация с пользователем влияет на вероятность покупки.</p>
27 <p>Для решения этой задачи аналитик может провести корреляционный анализ, чтобы количественно оценить связь между числом взаимодействий клиента с компанией и вероятностью заключения сделки. Например, он может изучить различные типы контактов: посещения сайта, переписку по электронной почте, телефонные звонки, общение в мессенджерах и социальных сетях, а также личные встречи.</p>
27 <p>Для решения этой задачи аналитик может провести корреляционный анализ, чтобы количественно оценить связь между числом взаимодействий клиента с компанией и вероятностью заключения сделки. Например, он может изучить различные типы контактов: посещения сайта, переписку по электронной почте, телефонные звонки, общение в мессенджерах и социальных сетях, а также личные встречи.</p>
28 <p>Далее на основе полученных данных аналитик может выявить статистически значимые закономерности. Например, он может обнаружить, что после 5-7 электронных писем и 2-3 звонков вероятность заключения сделки достигает максимума, а дальнейшие контакты не приносят пользы или даже могут снижать шансы на её заключение.</p>
28 <p>Далее на основе полученных данных аналитик может выявить статистически значимые закономерности. Например, он может обнаружить, что после 5-7 электронных писем и 2-3 звонков вероятность заключения сделки достигает максимума, а дальнейшие контакты не приносят пользы или даже могут снижать шансы на её заключение.</p>
29 <p>Зная оптимальное количество контактов для каждого сегмента клиентов, аналитик может существенно повысить эффективность маркетинговых кампаний и оптимизировать процесс продаж. Точные метрики позволяют ему выстраивать индивидуальные стратегии коммуникации для разных групп потенциальных покупателей и избегать как излишнего давления на клиента, так и недостаточного внимания к его потребностям.</p>
29 <p>Зная оптимальное количество контактов для каждого сегмента клиентов, аналитик может существенно повысить эффективность маркетинговых кампаний и оптимизировать процесс продаж. Точные метрики позволяют ему выстраивать индивидуальные стратегии коммуникации для разных групп потенциальных покупателей и избегать как излишнего давления на клиента, так и недостаточного внимания к его потребностям.</p>
30 <p><strong>Антон Смирнов,</strong>генеральный директор компании kongru.consulting</p>
30 <p><strong>Антон Смирнов,</strong>генеральный директор компании kongru.consulting</p>
31 <p>Корреляция - это не абстрактная взаимосвязь между переменными, а вполне конкретный числовой показатель. Его можно рассчитать различными методами, и наиболее распространённый -<a>коэффициент корреляции Пирсона (r)</a>. Этот коэффициент измеряет силу линейной зависимости между переменными и принимает значения от -1 до 1.</p>
31 <p>Корреляция - это не абстрактная взаимосвязь между переменными, а вполне конкретный числовой показатель. Его можно рассчитать различными методами, и наиболее распространённый -<a>коэффициент корреляции Пирсона (r)</a>. Этот коэффициент измеряет силу линейной зависимости между переменными и принимает значения от -1 до 1.</p>
32 <p>Линейная зависимость означает, что изменение одной переменной пропорционально изменению другой. Например, между ростом человека и его весом обычно наблюдается положительная линейная корреляция: чем выше человек, тем, как правило, больше его вес. Сила связи определяется тем, насколько абсолютное значение коэффициента |r| близко к 1. Так, коэффициент r = 0,9 указывает на сильную связь, а r = 0,3 - на слабую.</p>
32 <p>Линейная зависимость означает, что изменение одной переменной пропорционально изменению другой. Например, между ростом человека и его весом обычно наблюдается положительная линейная корреляция: чем выше человек, тем, как правило, больше его вес. Сила связи определяется тем, насколько абсолютное значение коэффициента |r| близко к 1. Так, коэффициент r = 0,9 указывает на сильную связь, а r = 0,3 - на слабую.</p>
33 <p>В зависимости от направления связи коэффициент корреляции может быть положительным, отрицательным или нулевым:</p>
33 <p>В зависимости от направления связи коэффициент корреляции может быть положительным, отрицательным или нулевым:</p>
34 <ul><li><strong>Положительная корреляция (r &gt; 0)</strong>наблюдается между количеством тренировок в неделю и результатами в марафоне: чем больше человек систематически тренируется, тем лучше его время на финише и выше позиция в итоговом рейтинге. Это прямая линейная зависимость.</li>
34 <ul><li><strong>Положительная корреляция (r &gt; 0)</strong>наблюдается между количеством тренировок в неделю и результатами в марафоне: чем больше человек систематически тренируется, тем лучше его время на финише и выше позиция в итоговом рейтинге. Это прямая линейная зависимость.</li>
35 <li><strong>Отрицательная корреляция (r &lt; 0)</strong>проявляется, когда увеличение одного показателя сопровождается уменьшением другого. Например, чем больше времени подросток тратит на видеоигры, тем ниже его успеваемость в школе - это уже обратная линейная зависимость.</li>
35 <li><strong>Отрицательная корреляция (r &lt; 0)</strong>проявляется, когда увеличение одного показателя сопровождается уменьшением другого. Например, чем больше времени подросток тратит на видеоигры, тем ниже его успеваемость в школе - это уже обратная линейная зависимость.</li>
36 <li><strong>Нулевая корреляция (r ≈ 0)</strong>означает, что статистически значимой связи между переменными нет или она случайна. Такое может наблюдаться между ростом человека и уровнем интеллекта или между последней цифрой номера телефона и заработком. Даже при большой выборке коэффициент корреляции здесь будет стремиться к нулю.</li>
36 <li><strong>Нулевая корреляция (r ≈ 0)</strong>означает, что статистически значимой связи между переменными нет или она случайна. Такое может наблюдаться между ростом человека и уровнем интеллекта или между последней цифрой номера телефона и заработком. Даже при большой выборке коэффициент корреляции здесь будет стремиться к нулю.</li>
37 </ul>Примеры линейной корреляции с различными значениями r: чем ближе коэффициент к 1 или -1, тем сильнее линейная связь между переменными. Когда значение r близко к 0, корреляция практически отсутствует<em>Изображение: Laerd Statistics / Wikimedia Commons</em><p>Рассчитать коэффициент Пирсона можно вручную по формуле, с помощью "Google Таблиц", Excel или языка программирования Python. Поскольку мы только знакомимся с темой, для удобства воспользуемся таблицами.</p>
37 </ul>Примеры линейной корреляции с различными значениями r: чем ближе коэффициент к 1 или -1, тем сильнее линейная связь между переменными. Когда значение r близко к 0, корреляция практически отсутствует<em>Изображение: Laerd Statistics / Wikimedia Commons</em><p>Рассчитать коэффициент Пирсона можно вручную по формуле, с помощью "Google Таблиц", Excel или языка программирования Python. Поскольку мы только знакомимся с темой, для удобства воспользуемся таблицами.</p>
38 <p>Предположим, вы хотите определить корреляцию между длиной усов и когтей вымышленного животного "жбумба". После проведения измерений вы получили результаты, которые теперь нужно внести в "Google Таблицы":</p>
38 <p>Предположим, вы хотите определить корреляцию между длиной усов и когтей вымышленного животного "жбумба". После проведения измерений вы получили результаты, которые теперь нужно внести в "Google Таблицы":</p>
39 <strong>Номер жбумбы</strong><strong>Длина усов жбумбы (X), см</strong><strong>Длина когтей жбумбы (Y), см</strong>13,74,529,510,137,37,4466,351,63,561,61,470,60,888,78,4965,8107,18<p>Выберите свободную ячейку и нажмите на значок <strong>Σ</strong>в верхней панели инструментов, чтобы открыть список функций. В подразделе статистических функций выберите<strong>PEARSON</strong>или просто введите в ячейку формулу =PEARSON. После этого выделите диапазон ячеек с первой переменной, поставьте точку с запятой и выделите диапазон со второй переменной. Затем нажмите<strong>Enter</strong>, и таблица автоматически рассчитает коэффициент Пирсона.</p>
39 <strong>Номер жбумбы</strong><strong>Длина усов жбумбы (X), см</strong><strong>Длина когтей жбумбы (Y), см</strong>13,74,529,510,137,37,4466,351,63,561,61,470,60,888,78,4965,8107,18<p>Выберите свободную ячейку и нажмите на значок <strong>Σ</strong>в верхней панели инструментов, чтобы открыть список функций. В подразделе статистических функций выберите<strong>PEARSON</strong>или просто введите в ячейку формулу =PEARSON. После этого выделите диапазон ячеек с первой переменной, поставьте точку с запятой и выделите диапазон со второй переменной. Затем нажмите<strong>Enter</strong>, и таблица автоматически рассчитает коэффициент Пирсона.</p>
40 <em>Скриншот: Excel / Skillbox Media</em><p>Мы выяснили, что коэффициент равен 0,97 - это очень сильная прямая корреляция. Однако из этого нельзя сделать вывод, что рост усов жбумбы вызывает рост когтей, - установить каузальность так не получится. Для этого нужны дополнительные биологические исследования. Тем не менее можно сказать, что жбумбы с длинными усами обычно имеют длинные когти.</p>
40 <em>Скриншот: Excel / Skillbox Media</em><p>Мы выяснили, что коэффициент равен 0,97 - это очень сильная прямая корреляция. Однако из этого нельзя сделать вывод, что рост усов жбумбы вызывает рост когтей, - установить каузальность так не получится. Для этого нужны дополнительные биологические исследования. Тем не менее можно сказать, что жбумбы с длинными усами обычно имеют длинные когти.</p>
41 <em>Скриншот: Excel / Skillbox Media</em><p>Приведу два примера из моей практики, когда аналитики применяют коэффициент Пирсона для решения рабочих задач.</p>
41 <em>Скриншот: Excel / Skillbox Media</em><p>Приведу два примера из моей практики, когда аналитики применяют коэффициент Пирсона для решения рабочих задач.</p>
42 <p><strong>Первый случай.</strong>В компании наблюдается высокая текучка кадров, и HR-аналитик пытается выяснить её причины. Он проводит корреляционный анализ между стажем сотрудников в компании и различными их характеристиками - например, возрастом или средним стажем на предыдущих местах работы. Если коэффициент корреляции окажется достаточно высоким, то это укажет на наличие связи и поможет понять, какие факторы влияют на удержание персонала.</p>
42 <p><strong>Первый случай.</strong>В компании наблюдается высокая текучка кадров, и HR-аналитик пытается выяснить её причины. Он проводит корреляционный анализ между стажем сотрудников в компании и различными их характеристиками - например, возрастом или средним стажем на предыдущих местах работы. Если коэффициент корреляции окажется достаточно высоким, то это укажет на наличие связи и поможет понять, какие факторы влияют на удержание персонала.</p>
43 <p><strong>Второй случай.</strong>Аналитик в строительной фирме хочет проверить, как скорость возведения новых объектов зависит от типа финансирования - заёмных средств, капитала застройщика или продаж квартир на разных этапах строительства. Корреляционный анализ позволяет выявить, какой из вариантов способствует более быстрому завершению проектов.</p>
43 <p><strong>Второй случай.</strong>Аналитик в строительной фирме хочет проверить, как скорость возведения новых объектов зависит от типа финансирования - заёмных средств, капитала застройщика или продаж квартир на разных этапах строительства. Корреляционный анализ позволяет выявить, какой из вариантов способствует более быстрому завершению проектов.</p>
44 <p>Если коэффициент корреляции окажется низким, это указывает на слабую связь между типом финансирования и сроками возведения новых объектов. В таком случае аналитику стоит поискать другие факторы, которые влияют на сроки реализации проектов, - например, это может быть опыт подрядчиков, сезонность, погодные условия или просто бюрократия.</p>
44 <p>Если коэффициент корреляции окажется низким, это указывает на слабую связь между типом финансирования и сроками возведения новых объектов. В таком случае аналитику стоит поискать другие факторы, которые влияют на сроки реализации проектов, - например, это может быть опыт подрядчиков, сезонность, погодные условия или просто бюрократия.</p>
45 <p><strong>Антон Смирнов,</strong>генеральный директор компании kongru.consulting</p>
45 <p><strong>Антон Смирнов,</strong>генеральный директор компании kongru.consulting</p>
46 <a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>
46 <a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>