0 added
0 removed
Original
2026-01-01
Modified
2026-02-26
1
<p><strong>Дисперсия</strong>- это одно из ключевых понятий в статистике и анализе данных, описывающее,<strong>насколько сильно значения в наборе данных отличаются друг от друга и от их среднего</strong>. Если представить себе набор измерений, например рост группы людей, то дисперсия показывает,<strong>насколько участники “разбросаны” вокруг среднего роста</strong>. Чем ближе все значения к среднему - тем меньше дисперсия; чем дальше - тем она больше.</p>
1
<p><strong>Дисперсия</strong>- это одно из ключевых понятий в статистике и анализе данных, описывающее,<strong>насколько сильно значения в наборе данных отличаются друг от друга и от их среднего</strong>. Если представить себе набор измерений, например рост группы людей, то дисперсия показывает,<strong>насколько участники “разбросаны” вокруг среднего роста</strong>. Чем ближе все значения к среднему - тем меньше дисперсия; чем дальше - тем она больше.</p>
2
<p>Другими словами, дисперсия измеряет<strong>вариативность</strong>- степень неоднородности или изменчивости данных. Она особенно важна в тех случаях, когда одно среднее значение не даёт полной картины. Ведь два набора чисел с одинаковым средним могут быть совершенно разными по разбросу.</p>
2
<p>Другими словами, дисперсия измеряет<strong>вариативность</strong>- степень неоднородности или изменчивости данных. Она особенно важна в тех случаях, когда одно среднее значение не даёт полной картины. Ведь два набора чисел с одинаковым средним могут быть совершенно разными по разбросу.</p>
3
<p>В статистике и машинном обучении дисперсия - это не просто вспомогательная мера, а<strong>фундаментальный инструмент для анализа неопределённости, ошибок и надежности моделей</strong>. Без нее невозможно построить доверительный интервал, протестировать гипотезу или оценить риск.</p>
3
<p>В статистике и машинном обучении дисперсия - это не просто вспомогательная мера, а<strong>фундаментальный инструмент для анализа неопределённости, ошибок и надежности моделей</strong>. Без нее невозможно построить доверительный интервал, протестировать гипотезу или оценить риск.</p>
4
<h2>Теоретическая основа</h2>
4
<h2>Теоретическая основа</h2>
5
<h3>Строгое математическое определение</h3>
5
<h3>Строгое математическое определение</h3>
6
<p>Формально дисперсия случайной величины ( X ) с математическим ожиданием (E(X) = μ) определяется как:</p>
6
<p>Формально дисперсия случайной величины ( X ) с математическим ожиданием (E(X) = μ) определяется как:</p>
7
<p>То есть это<strong>математическое ожидание квадрата отклонений</strong>значений от их среднего. Квадрат используется для того, чтобы все отклонения были положительными и большие отклонения сильнее влияли на итоговую оценку.</p>
7
<p>То есть это<strong>математическое ожидание квадрата отклонений</strong>значений от их среднего. Квадрат используется для того, чтобы все отклонения были положительными и большие отклонения сильнее влияли на итоговую оценку.</p>
8
<p>Для выборки из n наблюдений (x₁, x₂, …, xₙ) формула записывается так:</p>
8
<p>Для выборки из n наблюдений (x₁, x₂, …, xₙ) формула записывается так:</p>
9
<p>где x̄ - это выборочное среднее.</p>
9
<p>где x̄ - это выборочное среднее.</p>
10
<p>Таким образом, дисперсия показывает, насколько “в среднем” квадраты отклонений точек от их среднего отличаются от нуля.</p>
10
<p>Таким образом, дисперсия показывает, насколько “в среднем” квадраты отклонений точек от их среднего отличаются от нуля.</p>
11
<h3>Генеральная и выборочная дисперсия</h3>
11
<h3>Генеральная и выборочная дисперсия</h3>
12
<p>В статистике важно различать<strong>дисперсию генеральной совокупности</strong>(всех возможных данных) и<strong>выборочную</strong>(основанную на ограниченном наборе наблюдений).</p>
12
<p>В статистике важно различать<strong>дисперсию генеральной совокупности</strong>(всех возможных данных) и<strong>выборочную</strong>(основанную на ограниченном наборе наблюдений).</p>
13
<ul><li><p><strong>Генеральная дисперсия</strong>- это истинная, теоретическая характеристика всей совокупности. Например, дисперсия роста всех взрослых мужчин в стране.</p>
13
<ul><li><p><strong>Генеральная дисперсия</strong>- это истинная, теоретическая характеристика всей совокупности. Например, дисперсия роста всех взрослых мужчин в стране.</p>
14
</li>
14
</li>
15
<li><p><strong>Выборочная дисперсия</strong>- вычисляется по небольшой выборке из генеральной совокупности, например, по 100 случайно выбранным людям. Её задача - максимально точно оценить неизвестную генеральную дисперсию.</p>
15
<li><p><strong>Выборочная дисперсия</strong>- вычисляется по небольшой выборке из генеральной совокупности, например, по 100 случайно выбранным людям. Её задача - максимально точно оценить неизвестную генеральную дисперсию.</p>
16
</li>
16
</li>
17
</ul><p>Поскольку выборка ограничена и не отражает всё разнообразие, в оценку вносят поправку - появляется понятие<strong>исправленной дисперсии</strong>.</p>
17
</ul><p>Поскольку выборка ограничена и не отражает всё разнообразие, в оценку вносят поправку - появляется понятие<strong>исправленной дисперсии</strong>.</p>
18
<h3>Исправленная (несмещенная) дисперсия</h3>
18
<h3>Исправленная (несмещенная) дисперсия</h3>
19
<p>Если дисперсию вычислить простым делением на n, получится<strong>смещенная оценка</strong>, то есть систематически заниженная. Чтобы устранить это смещение, в знаменателе используют n - 1:</p>
19
<p>Если дисперсию вычислить простым делением на n, получится<strong>смещенная оценка</strong>, то есть систематически заниженная. Чтобы устранить это смещение, в знаменателе используют n - 1:</p>
20
<p>Почему именно ( n - 1 )? Потому что одно значение (среднее) уже “израсходовало” одну степень свободы. Исправленная дисперсия называется<strong>несмещенной</strong>, потому что в среднем совпадает с истинной генеральной при многократных измерениях.</p>
20
<p>Почему именно ( n - 1 )? Потому что одно значение (среднее) уже “израсходовало” одну степень свободы. Исправленная дисперсия называется<strong>несмещенной</strong>, потому что в среднем совпадает с истинной генеральной при многократных измерениях.</p>
21
<h2>Свойства дисперсии</h2>
21
<h2>Свойства дисперсии</h2>
22
<ol><li><p><strong>Неотрицательность.</strong>Дисперсия не может быть отрицательной, так как складываются квадраты отклонений. D(X) = 0 только в том случае, если все наблюдения одинаковы и разброс отсутствует.</p>
22
<ol><li><p><strong>Неотрицательность.</strong>Дисперсия не может быть отрицательной, так как складываются квадраты отклонений. D(X) = 0 только в том случае, если все наблюдения одинаковы и разброс отсутствует.</p>
23
</li>
23
</li>
24
<li><p><strong>Связь с ковариацией.</strong>Дисперсия - это частный случай ковариации самой величины с собой: D(X) = Cov(X, X). Это делает ее ключевым элементом в анализе взаимосвязей переменных.</p>
24
<li><p><strong>Связь с ковариацией.</strong>Дисперсия - это частный случай ковариации самой величины с собой: D(X) = Cov(X, X). Это делает ее ключевым элементом в анализе взаимосвязей переменных.</p>
25
</li>
25
</li>
26
<li><p><strong>Линейность и масштабируемость.</strong>Если случайную величину X умножить на константу a, то дисперсия изменится пропорционально квадрату этой константы: D(aX) = a^2 * D(X). Это свойство особенно важно при нормировке данных.</p>
26
<li><p><strong>Линейность и масштабируемость.</strong>Если случайную величину X умножить на константу a, то дисперсия изменится пропорционально квадрату этой константы: D(aX) = a^2 * D(X). Это свойство особенно важно при нормировке данных.</p>
27
</li>
27
</li>
28
<li><p><strong>Аддитивность (для независимых переменных).</strong>Если две случайные величины X и Y независимы, то D(X + Y) = D(X) + D(Y). Таким образом, общая вариативность суммы равна сумме вариативностей.</p>
28
<li><p><strong>Аддитивность (для независимых переменных).</strong>Если две случайные величины X и Y независимы, то D(X + Y) = D(X) + D(Y). Таким образом, общая вариативность суммы равна сумме вариативностей.</p>
29
</li>
29
</li>
30
</ol><h2>Методы расчета</h2>
30
</ol><h2>Методы расчета</h2>
31
<h3>Основная формула</h3>
31
<h3>Основная формула</h3>
32
<p>Эта формула - основа для всех вычислений и интерпретаций.</p>
32
<p>Эта формула - основа для всех вычислений и интерпретаций.</p>
33
<p>Упрощённая (вычислительная) формула</p>
33
<p>Упрощённая (вычислительная) формула</p>
34
<p>Иногда для удобства используют эквивалентную форму:</p>
34
<p>Иногда для удобства используют эквивалентную форму:</p>
35
<p>Она полезна при ручных вычислениях, особенно при больших выборках, когда сначала известны суммы квадратов и среднее значение.</p>
35
<p>Она полезна при ручных вычислениях, особенно при больших выборках, когда сначала известны суммы квадратов и среднее значение.</p>
36
<p>Исправленная формула</p>
36
<p>Исправленная формула</p>
37
<p>Её используют, когда данные - это выборка из генеральной совокупности.</p>
37
<p>Её используют, когда данные - это выборка из генеральной совокупности.</p>
38
<p>Пример расчёта</p>
38
<p>Пример расчёта</p>
39
<p>Возьмем данные:<strong>2, 4, 4, 4, 5, 5, 7, 9</strong>.</p>
39
<p>Возьмем данные:<strong>2, 4, 4, 4, 5, 5, 7, 9</strong>.</p>
40
<p>Среднее (x̄ = 5).</p>
40
<p>Среднее (x̄ = 5).</p>
41
<p>Вычтем среднее: (-3, -1, -1, -1, 0, 0, 2, 4)</p>
41
<p>Вычтем среднее: (-3, -1, -1, -1, 0, 0, 2, 4)</p>
42
<p>Возведем в квадрат: (9, 1, 1, 1, 0, 0, 4, 16).</p>
42
<p>Возведем в квадрат: (9, 1, 1, 1, 0, 0, 4, 16).</p>
43
<p>Сумма квадратов = 32. D = 32 / 8 = 4 Исправленная дисперсия: s^2 = 32 / 7 ≈ 4.57</p>
43
<p>Сумма квадратов = 32. D = 32 / 8 = 4 Исправленная дисперсия: s^2 = 32 / 7 ≈ 4.57</p>
44
<p>Это значит, что значения в среднем отклоняются от среднего квадратично на 4-4,5 единицы.</p>
44
<p>Это значит, что значения в среднем отклоняются от среднего квадратично на 4-4,5 единицы.</p>
45
<h2>Визуализация</h2>
45
<h2>Визуализация</h2>
46
<p>Чтобы “увидеть” дисперсию, её можно отобразить на графиках:</p>
46
<p>Чтобы “увидеть” дисперсию, её можно отобразить на графиках:</p>
47
<ul><li><p><strong>Гистограмма:</strong>широкий разброс столбцов показывает большую дисперсию.</p>
47
<ul><li><p><strong>Гистограмма:</strong>широкий разброс столбцов показывает большую дисперсию.</p>
48
</li>
48
</li>
49
<li><p><strong>Box-plot (ящик с усами):</strong>чем длиннее коробка и усы, тем выше вариативность.</p>
49
<li><p><strong>Box-plot (ящик с усами):</strong>чем длиннее коробка и усы, тем выше вариативность.</p>
50
</li>
50
</li>
51
<li><p><strong>Scatter plot:</strong>если точки плотно сгруппированы, дисперсия мала; если сильно рассеяны - велика.</p>
51
<li><p><strong>Scatter plot:</strong>если точки плотно сгруппированы, дисперсия мала; если сильно рассеяны - велика.</p>
52
</li>
52
</li>
53
</ul><p>Визуальные методы позволяют быстро понять, насколько однородны данные и есть ли выбросы.</p>
53
</ul><p>Визуальные методы позволяют быстро понять, насколько однородны данные и есть ли выбросы.</p>
54
<h2>Применение</h2>
54
<h2>Применение</h2>
55
<h3>В статистике</h3>
55
<h3>В статистике</h3>
56
<p>Дисперсия используется для:</p>
56
<p>Дисперсия используется для:</p>
57
<ul><li><p>оценки<strong>надёжности и разброса</strong>наблюдений;</p>
57
<ul><li><p>оценки<strong>надёжности и разброса</strong>наблюдений;</p>
58
</li>
58
</li>
59
<li><p>построения<strong>доверительных интервалов</strong>;</p>
59
<li><p>построения<strong>доверительных интервалов</strong>;</p>
60
</li>
60
</li>
61
<li><p>проведения<strong>гипотезных тестов</strong>(F-тест, t-тест).</p>
61
<li><p>проведения<strong>гипотезных тестов</strong>(F-тест, t-тест).</p>
62
</li>
62
</li>
63
</ul><p>Она показывает, насколько данные близки к среднему, и помогает сравнивать различные выборки.</p>
63
</ul><p>Она показывает, насколько данные близки к среднему, и помогает сравнивать различные выборки.</p>
64
<h3>В анализе данных и машинном обучении</h3>
64
<h3>В анализе данных и машинном обучении</h3>
65
<ul><li><p>В<strong>регрессионных моделях</strong>дисперсия ошибок отражает качество модели - чем меньше разброс остатков, тем лучше модель описывает данные.</p>
65
<ul><li><p>В<strong>регрессионных моделях</strong>дисперсия ошибок отражает качество модели - чем меньше разброс остатков, тем лучше модель описывает данные.</p>
66
</li>
66
</li>
67
<li><p>В<strong>дисперсионном анализе (ANOVA)</strong>сравниваются дисперсии групп, чтобы определить, есть ли статистически значимые различия.</p>
67
<li><p>В<strong>дисперсионном анализе (ANOVA)</strong>сравниваются дисперсии групп, чтобы определить, есть ли статистически значимые различия.</p>
68
</li>
68
</li>
69
<li><p>В<strong>деревьях решений и ансамблях</strong>(например, Random Forest) дисперсия служит критерием для деления узлов при прогнозировании непрерывных переменных.</p>
69
<li><p>В<strong>деревьях решений и ансамблях</strong>(например, Random Forest) дисперсия служит критерием для деления узлов при прогнозировании непрерывных переменных.</p>
70
</li>
70
</li>
71
</ul><h3>В прикладных областях</h3>
71
</ul><h3>В прикладных областях</h3>
72
<ul><li><p>В<strong>финансах</strong>дисперсия доходностей - мера риска. Чем больше дисперсия, тем менее предсказуем актив.</p>
72
<ul><li><p>В<strong>финансах</strong>дисперсия доходностей - мера риска. Чем больше дисперсия, тем менее предсказуем актив.</p>
73
</li>
73
</li>
74
<li><p>В<strong>медицине</strong>она помогает оценивать стабильность показателей у пациентов.</p>
74
<li><p>В<strong>медицине</strong>она помогает оценивать стабильность показателей у пациентов.</p>
75
</li>
75
</li>
76
<li><p>В<strong>промышленности</strong>используется для анализа стабильности процессов, контроля качества продукции.</p>
76
<li><p>В<strong>промышленности</strong>используется для анализа стабильности процессов, контроля качества продукции.</p>
77
</li>
77
</li>
78
</ul><h2>Связь с другими мерами разброса</h2>
78
</ul><h2>Связь с другими мерами разброса</h2>
79
<h3>Стандартное отклонение (σ).</h3>
79
<h3>Стандартное отклонение (σ).</h3>
80
<p>Это квадратный корень из дисперсии:</p>
80
<p>Это квадратный корень из дисперсии:</p>
81
<p>В отличие от дисперсии, оно выражено в тех же единицах, что и исходные данные, поэтому интерпретируется проще.</p>
81
<p>В отличие от дисперсии, оно выражено в тех же единицах, что и исходные данные, поэтому интерпретируется проще.</p>
82
<h3>Межквартильный размах (IQR)</h3>
82
<h3>Межквартильный размах (IQR)</h3>
83
<p>Разница между 75-м и 25-м перцентилем. Он показывает ширину “средней” половины данных и устойчив к выбросам.</p>
83
<p>Разница между 75-м и 25-м перцентилем. Он показывает ширину “средней” половины данных и устойчив к выбросам.</p>
84
<h3>MAD (Mean Absolute Deviation) - среднее абсолютное отклонение</h3>
84
<h3>MAD (Mean Absolute Deviation) - среднее абсолютное отклонение</h3>
85
<p>Оно менее чувствительно к выбросам, чем дисперсия, и часто используется для устойчивой статистики.</p>
85
<p>Оно менее чувствительно к выбросам, чем дисперсия, и часто используется для устойчивой статистики.</p>
86
<h2>Преимущества и ограничения</h2>
86
<h2>Преимущества и ограничения</h2>
87
<h3>Преимущества</h3>
87
<h3>Преимущества</h3>
88
<ul><li><p>Универсальность: подходит для любых числовых данных.</p>
88
<ul><li><p>Универсальность: подходит для любых числовых данных.</p>
89
</li>
89
</li>
90
<li><p>Простота вычисления и математическая строгость.</p>
90
<li><p>Простота вычисления и математическая строгость.</p>
91
</li>
91
</li>
92
<li><p>Используется во множестве статистических и ML-моделей.</p>
92
<li><p>Используется во множестве статистических и ML-моделей.</p>
93
</li>
93
</li>
94
<li><p>Формирует базу для доверительных интервалов и тестов.</p>
94
<li><p>Формирует базу для доверительных интервалов и тестов.</p>
95
</li>
95
</li>
96
</ul><h3>Ограничения</h3>
96
</ul><h3>Ограничения</h3>
97
<ul><li><p><strong>Чувствительность к выбросам:</strong>одно экстремальное значение может сильно увеличить дисперсию.</p>
97
<ul><li><p><strong>Чувствительность к выбросам:</strong>одно экстремальное значение может сильно увеличить дисперсию.</p>
98
</li>
98
</li>
99
<li><p><strong>Измеряется в квадратных единицах</strong>, что делает интерпретацию менее интуитивной.</p>
99
<li><p><strong>Измеряется в квадратных единицах</strong>, что делает интерпретацию менее интуитивной.</p>
100
</li>
100
</li>
101
<li><p>При<strong>асимметричных распределениях</strong>или малых выборках может искажать представление о реальном разбросе.</p>
101
<li><p>При<strong>асимметричных распределениях</strong>или малых выборках может искажать представление о реальном разбросе.</p>
102
</li>
102
</li>
103
</ul><h2>История и терминология</h2>
103
</ul><h2>История и терминология</h2>
104
<p>Термин “дисперсия” происходит от латинского<em>dispersio</em>- “разброс, рассеяние”. Его впервые ввел<strong>Рональд Айльмер Фишер</strong>в 1918 году, разрабатывая методы дисперсионного анализа (ANOVA). С тех пор понятие стало центральным элементом математической статистики.</p>
104
<p>Термин “дисперсия” происходит от латинского<em>dispersio</em>- “разброс, рассеяние”. Его впервые ввел<strong>Рональд Айльмер Фишер</strong>в 1918 году, разрабатывая методы дисперсионного анализа (ANOVA). С тех пор понятие стало центральным элементом математической статистики.</p>
105
<p>Сегодня дисперсия используется в самых разных областях - от биометрии и физики до экономики и инженерии. В экономике её аналог -<strong>волатильность</strong>, в метрологии -<strong>разброс измерений</strong>, а в физике -<strong>флуктуации</strong>.</p>
105
<p>Сегодня дисперсия используется в самых разных областях - от биометрии и физики до экономики и инженерии. В экономике её аналог -<strong>волатильность</strong>, в метрологии -<strong>разброс измерений</strong>, а в физике -<strong>флуктуации</strong>.</p>
106
<h2>Практические задания</h2>
106
<h2>Практические задания</h2>
107
<ol><li><p><strong>Рассчитайте дисперсию вручную.</strong>Возьмите 5-10 чисел, вычислите среднее, найдите отклонения и посчитайте дисперсию.</p>
107
<ol><li><p><strong>Рассчитайте дисперсию вручную.</strong>Возьмите 5-10 чисел, вычислите среднее, найдите отклонения и посчитайте дисперсию.</p>
108
</li>
108
</li>
109
<li><p><strong>Сравните две выборки.</strong>Например, сравните разброс оценок двух классов - где успеваемость стабильнее?</p>
109
<li><p><strong>Сравните две выборки.</strong>Например, сравните разброс оценок двух классов - где успеваемость стабильнее?</p>
110
</li>
110
</li>
111
<li><p><strong>Постройте график.</strong>Создайте гистограмму или box-plot и визуально сравните дисперсии разных наборов данных.</p>
111
<li><p><strong>Постройте график.</strong>Создайте гистограмму или box-plot и визуально сравните дисперсии разных наборов данных.</p>
112
</li>
112
</li>
113
<li><p><strong>Примените на практике.</strong>Возьмите реальные данные - температуру, курс валют, результаты эксперимента - и посчитайте дисперсию, чтобы оценить стабильность.</p>
113
<li><p><strong>Примените на практике.</strong>Возьмите реальные данные - температуру, курс валют, результаты эксперимента - и посчитайте дисперсию, чтобы оценить стабильность.</p>
114
</li>
114
</li>
115
</ol><h2>Заключение</h2>
115
</ol><h2>Заключение</h2>
116
<p><strong>Дисперсия</strong>- это не просто формула или число. Это<strong>язык, с помощью которого статистика описывает изменчивость и неопределенность</strong>. Она помогает понять, насколько надежны наши данные, как сильно они колеблются, какие тенденции скрываются внутри них.</p>
116
<p><strong>Дисперсия</strong>- это не просто формула или число. Это<strong>язык, с помощью которого статистика описывает изменчивость и неопределенность</strong>. Она помогает понять, насколько надежны наши данные, как сильно они колеблются, какие тенденции скрываются внутри них.</p>
117
<p>Изучение дисперсии - фундаментальный шаг к освоению таких понятий, как<strong>стандартное отклонение, ковариация, корреляция и регрессия</strong>. Без понимания дисперсии невозможно построить устойчивую модель или корректно интерпретировать результаты экспериментов.</p>
117
<p>Изучение дисперсии - фундаментальный шаг к освоению таких понятий, как<strong>стандартное отклонение, ковариация, корреляция и регрессия</strong>. Без понимания дисперсии невозможно построить устойчивую модель или корректно интерпретировать результаты экспериментов.</p>