0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<ul><li><a>Определение</a><ul><li><a>Возможные допущения</a></li>
1
<ul><li><a>Определение</a><ul><li><a>Возможные допущения</a></li>
2
</ul></li>
2
</ul></li>
3
<li><a>Особенности вычислений</a></li>
3
<li><a>Особенности вычислений</a></li>
4
<li><a>Регрессионная линия</a></li>
4
<li><a>Регрессионная линия</a></li>
5
<li><a>Метод наименьших квадратов</a></li>
5
<li><a>Метод наименьших квадратов</a></li>
6
<li><a>Несколько слов о предположениях</a><ul><li><a>О выбросах и точках влияния</a></li>
6
<li><a>Несколько слов о предположениях</a><ul><li><a>О выбросах и точках влияния</a></li>
7
</ul></li>
7
</ul></li>
8
<li><a>Гипотеза</a></li>
8
<li><a>Гипотеза</a></li>
9
<li><a>Оценка качества</a></li>
9
<li><a>Оценка качества</a></li>
10
<li><a>Секрет быстрого изучения</a></li>
10
<li><a>Секрет быстрого изучения</a></li>
11
</ul><p>Статистика и математика - научные области, которые пригодятся каждому разработчику. Они позволяют не только мыслить логически, но и решать огромное количество бизнес-задач.</p>
11
</ul><p>Статистика и математика - научные области, которые пригодятся каждому разработчику. Они позволяют не только мыслить логически, но и решать огромное количество бизнес-задач.</p>
12
<p>В данной статье будет рассказано о линейных регрессиях. Они достаточно часто встречаются в эконометрике. Познания в соответствующей области помогут разобраться в наиболее вероятных характеристиках факторов, а также случайных ошибок модели.</p>
12
<p>В данной статье будет рассказано о линейных регрессиях. Они достаточно часто встречаются в эконометрике. Познания в соответствующей области помогут разобраться в наиболее вероятных характеристиках факторов, а также случайных ошибок модели.</p>
13
<h2>Определение</h2>
13
<h2>Определение</h2>
14
<p>Линейная регрессия - это используемая в статистике регрессионная модель одной переменной y от другой или нескольких иных переменных x с линейной функцией зависимости.</p>
14
<p>Линейная регрессия - это используемая в статистике регрессионная модель одной переменной y от другой или нескольких иных переменных x с линейной функцией зависимости.</p>
15
<p>Регрессионные модели понять не слишком трудно, если стараться разобраться в направлении поэтапно. Сначала рассмотрим две непрерывные функции (переменные):</p>
15
<p>Регрессионные модели понять не слишком трудно, если стараться разобраться в направлении поэтапно. Сначала рассмотрим две непрерывные функции (переменные):</p>
16
<ul><li>x = (x1, x2, x3,…,xn);</li>
16
<ul><li>x = (x1, x2, x3,…,xn);</li>
17
<li>y = (y1, y2, y3,…,yn.).</li>
17
<li>y = (y1, y2, y3,…,yn.).</li>
18
</ul><p>Нужно разместить соответствующие точки на двумерной графике рассеяния. Это поможет получить линейное соотношение. Такое наблюдается, если данные аппроксимируются прямой линией.</p>
18
</ul><p>Нужно разместить соответствующие точки на двумерной графике рассеяния. Это поможет получить линейное соотношение. Такое наблюдается, если данные аппроксимируются прямой линией.</p>
19
<p>Если y зависит от x, а корректировки в y вызваны изменениями в x, удастся определить линию регрессии (такой вариант носит название регрессии y на x), которая лучшим образом опишет прямолинейное соотношение между этими двумя переменными.</p>
19
<p>Если y зависит от x, а корректировки в y вызваны изменениями в x, удастся определить линию регрессии (такой вариант носит название регрессии y на x), которая лучшим образом опишет прямолинейное соотношение между этими двумя переменными.</p>
20
<p>Классическая регрессия - это способ выбора из семейства функций той, что минимизирует функцию потерь. Последняя будет подчеркивать степень отклонения пробной функции от заданных в точках значений.</p>
20
<p>Классическая регрессия - это способ выбора из семейства функций той, что минимизирует функцию потерь. Последняя будет подчеркивать степень отклонения пробной функции от заданных в точках значений.</p>
21
<h3>Возможные допущения</h3>
21
<h3>Возможные допущения</h3>
22
<p>Классическая модель линейной регрессии представлена зависимостью одной величины от другой. Самый простой ее вариант предусматривает следующие условия:</p>
22
<p>Классическая модель линейной регрессии представлена зависимостью одной величины от другой. Самый простой ее вариант предусматривает следующие условия:</p>
23
<ul><li>имеющиеся значения зависимой переменной будут определяться безошибочно;</li>
23
<ul><li>имеющиеся значения зависимой переменной будут определяться безошибочно;</li>
24
<li>модель обладает всего двумя параметрами - они предварительно задаются;</li>
24
<li>модель обладает всего двумя параметрами - они предварительно задаются;</li>
25
<li>ошибки распределения стремятся к нулю, обладают постоянным отклонением;</li>
25
<li>ошибки распределения стремятся к нулю, обладают постоянным отклонением;</li>
26
<li>значения имеющихся параметров не могут быть заранее известны - их удается подобрать.</li>
26
<li>значения имеющихся параметров не могут быть заранее известны - их удается подобрать.</li>
27
</ul><p>Параметры могут выбирать вручную. Для этого чаще всего используют специализированное программное обеспечение. Но есть и формулы, помогающие произвести необходимые расчеты вручную.</p>
27
</ul><p>Параметры могут выбирать вручную. Для этого чаще всего используют специализированное программное обеспечение. Но есть и формулы, помогающие произвести необходимые расчеты вручную.</p>
28
<h2>Особенности вычислений</h2>
28
<h2>Особенности вычислений</h2>
29
<p>Классическая модель регрессионного характера несет в себе ту или иную функцию. Если соответствующая запись выступает линейной, то и регрессия будет аналогичной. Ее вычисление заключается в том, чтобы подобрать выборку вследствие проведения анализа вычислений, данные в которой отвечают определенным требованиям.</p>
29
<p>Классическая модель регрессионного характера несет в себе ту или иную функцию. Если соответствующая запись выступает линейной, то и регрессия будет аналогичной. Ее вычисление заключается в том, чтобы подобрать выборку вследствие проведения анализа вычислений, данные в которой отвечают определенным требованиям.</p>
30
<p>К соответствующим критериям относят следующие моменты:</p>
30
<p>К соответствующим критериям относят следующие моменты:</p>
31
<ul><li>адекватность результатов;</li>
31
<ul><li>адекватность результатов;</li>
32
<li>статистические гипотезы в параметрах модели;</li>
32
<li>статистические гипотезы в параметрах модели;</li>
33
<li>оптимальные точечные и интервальные оценки.</li>
33
<li>оптимальные точечные и интервальные оценки.</li>
34
</ul><p>Эти моменты необходимо учитывать при проведении тех или иных расчетов. Но перед тем, как углубляться в соответствующий вопрос, рекомендуется рассмотреть иные важные моменты изучаемой модели.</p>
34
</ul><p>Эти моменты необходимо учитывать при проведении тех или иных расчетов. Но перед тем, как углубляться в соответствующий вопрос, рекомендуется рассмотреть иные важные моменты изучаемой модели.</p>
35
<h2>Регрессионная линия</h2>
35
<h2>Регрессионная линия</h2>
36
<p>Математическое уравнение, которое будет оценивать линию простой (парной) линейной регрессии будет иметь форму представления: Y = a+bx, где:</p>
36
<p>Математическое уравнение, которое будет оценивать линию простой (парной) линейной регрессии будет иметь форму представления: Y = a+bx, где:</p>
37
<ul><li>x - независимая переменная (предиктор);</li>
37
<ul><li>x - независимая переменная (предиктор);</li>
38
<li>Y - зависимая переменная (отклика);</li>
38
<li>Y - зависимая переменная (отклика);</li>
39
<li>a - свободный член линии оценки (своеобразное пересечение, значение Y при x = 0);</li>
39
<li>a - свободный член линии оценки (своеобразное пересечение, значение Y при x = 0);</li>
40
<li>b - градиент оцененной линии (угловой коэффициент), величина, на которую в среднем происходит увеличение Y при "росте" x на единицу.</li>
40
<li>b - градиент оцененной линии (угловой коэффициент), величина, на которую в среднем происходит увеличение Y при "росте" x на единицу.</li>
41
</ul><p>Стоит обратить внимание на то, что a и b - это коэффициенты регрессии оцененной линии. Но чаще всего соответствующее понятие используется только для b (углового коэффициента).</p>
41
</ul><p>Стоит обратить внимание на то, что a и b - это коэффициенты регрессии оцененной линии. Но чаще всего соответствующее понятие используется только для b (углового коэффициента).</p>
42
<p>Выше - пример того, какой вид имеет линейная регрессия. Ее можно расширить за счет включения в функции очередных независимых переменных. Такая ситуация имеет несколько иное название. Регрессия окажется множественной.</p>
42
<p>Выше - пример того, какой вид имеет линейная регрессия. Ее можно расширить за счет включения в функции очередных независимых переменных. Такая ситуация имеет несколько иное название. Регрессия окажется множественной.</p>
43
<h2>Метод наименьших квадратов</h2>
43
<h2>Метод наименьших квадратов</h2>
44
<p>Для того, чтобы определить коэффициенты a и b, можно использовать специализированные программы и приложения. Но математики и статисты должны уметь обходиться самостоятельными расчетами.</p>
44
<p>Для того, чтобы определить коэффициенты a и b, можно использовать специализированные программы и приложения. Но математики и статисты должны уметь обходиться самостоятельными расчетами.</p>
45
<p>Для того, чтобы добиться желаемого результата, можно использовать выборку наблюдений, где a и b - это выборочные оценки генеральных параметров α и β. Они определяют линию регрессионного компонента в совокупности. Этот прием имеет название "метод наименьших квадратов" или МНК.</p>
45
<p>Для того, чтобы добиться желаемого результата, можно использовать выборку наблюдений, где a и b - это выборочные оценки генеральных параметров α и β. Они определяют линию регрессионного компонента в совокупности. Этот прием имеет название "метод наименьших квадратов" или МНК.</p>
46
<p>Подборка оценивается, рассматривая остатки. То есть, вертикальное расстояние каждой точки от линии. Лучшая подгонка - это та, в которой сумма квадратов остатков оказывается минимальной.</p>
46
<p>Подборка оценивается, рассматривая остатки. То есть, вертикальное расстояние каждой точки от линии. Лучшая подгонка - это та, в которой сумма квадратов остатков оказывается минимальной.</p>
47
<p>Выше - пример соответствующих расчетов. Он поможет лучше понять принцип работы метода наименьших квадратов.</p>
47
<p>Выше - пример соответствующих расчетов. Он поможет лучше понять принцип работы метода наименьших квадратов.</p>
48
<h2>Несколько слов о предположениях</h2>
48
<h2>Несколько слов о предположениях</h2>
49
<p>Linear model регрес сии предусматривает, что для каждой рассматриваемой величины x остаток будет равняться y и предсказанного Y. Каждый из них бывает как положительным, так и отрицательным.</p>
49
<p>Linear model регрес сии предусматривает, что для каждой рассматриваемой величины x остаток будет равняться y и предсказанного Y. Каждый из них бывает как положительным, так и отрицательным.</p>
50
<p>Остатки используют для того, чтобы проверить некоторые предложения. Они заложены в основе рассматриваемой регрессионной единицы:</p>
50
<p>Остатки используют для того, чтобы проверить некоторые предложения. Они заложены в основе рассматриваемой регрессионной единицы:</p>
51
<ol><li>Между x и y есть соотношение линейного характера. Для любых пар (x;y) информация должна аппроксимировать прямую линию. Если перенести остатки на график двумерного типа, точки должны распределяться случайно. Никаких систематических картин здесь не будет.</li>
51
<ol><li>Между x и y есть соотношение линейного характера. Для любых пар (x;y) информация должна аппроксимировать прямую линию. Если перенести остатки на график двумерного типа, точки должны распределяться случайно. Никаких систематических картин здесь не будет.</li>
52
<li>Остатки нормально распределяются с нулевым средним значением.</li>
52
<li>Остатки нормально распределяются с нулевым средним значением.</li>
53
<li>У остатков наблюдается постоянная дисперсия относительно всех предсказанных величин y. При нанесении остатков против предсказанных Y от y вид "графика" укажет на случайное рассеяние точек. Соответствующее допущение невозможно, если с увеличением Y график рассеяния будет увеличиваться/уменьшаться.</li>
53
<li>У остатков наблюдается постоянная дисперсия относительно всех предсказанных величин y. При нанесении остатков против предсказанных Y от y вид "графика" укажет на случайное рассеяние точек. Соответствующее допущение невозможно, если с увеличением Y график рассеяния будет увеличиваться/уменьшаться.</li>
54
</ol><p>Если "гипотезы" сомнительны, можно преобразовать x или y, затем рассчитать новую регрессию. Так, чтобы соответствующие допущения были удовлетворены. Пример - логарифмические преобразования.</p>
54
</ol><p>Если "гипотезы" сомнительны, можно преобразовать x или y, затем рассчитать новую регрессию. Так, чтобы соответствующие допущения были удовлетворены. Пример - логарифмические преобразования.</p>
55
<h3>О выбросах и точках влияния</h3>
55
<h3>О выбросах и точках влияния</h3>
56
<p>"Влиятельное" наблюдение, если оно пропущено, корректирует оценки параметров модели (угловых коэффициентов, свободных членов). Выброс (наблюдение, противоречащее большей части значений в имеющемся наборе информации) бывает "влиятельным" наблюдением, может обнаруживаться без проблем визуально. Это возможно при построении двумерной диаграммы рассеяния или так называемого графика остатков.</p>
56
<p>"Влиятельное" наблюдение, если оно пропущено, корректирует оценки параметров модели (угловых коэффициентов, свободных членов). Выброс (наблюдение, противоречащее большей части значений в имеющемся наборе информации) бывает "влиятельным" наблюдением, может обнаруживаться без проблем визуально. Это возможно при построении двумерной диаграммы рассеяния или так называемого графика остатков.</p>
57
<p>Для выбросов и "влиятельных" наблюдений (точек) необходимо использовать вид модели с их включением и без них. Обратить внимание придется на изменение оценок (регрессионных коэффициентов).</p>
57
<p>Для выбросов и "влиятельных" наблюдений (точек) необходимо использовать вид модели с их включением и без них. Обратить внимание придется на изменение оценок (регрессионных коэффициентов).</p>
58
<p>Когда проводится анализ, не рекомендуется отбрасывать выбросы и точки влияния сразу. Подобная ситуация может исказить полученные итоговые результаты. Сначала необходимо выяснить, откуда появились соответствующие выбросы. Далее - проанализировать их.</p>
58
<p>Когда проводится анализ, не рекомендуется отбрасывать выбросы и точки влияния сразу. Подобная ситуация может исказить полученные итоговые результаты. Сначала необходимо выяснить, откуда появились соответствующие выбросы. Далее - проанализировать их.</p>
59
<h2>Гипотеза</h2>
59
<h2>Гипотеза</h2>
60
<p>При работе с линейной регрессией нужно провести проверку нулевой гипотезы. Она заключается в том, что генеральный угловой коэффициент линии регрессии β = 0. Если угловой коэффициент линии равен нулю, то между x и y отсутствует линейное соотношение. Это значит, что изменения в x никак не отражаются на y.</p>
60
<p>При работе с линейной регрессией нужно провести проверку нулевой гипотезы. Она заключается в том, что генеральный угловой коэффициент линии регрессии β = 0. Если угловой коэффициент линии равен нулю, то между x и y отсутствует линейное соотношение. Это значит, что изменения в x никак не отражаются на y.</p>
61
<p>Для того, чтобы проверить нулевую гипотезу, нужно использовать такой алгоритм:</p>
61
<p>Для того, чтобы проверить нулевую гипотезу, нужно использовать такой алгоритм:</p>
62
<ol><li>Вычистить статистику критерия. Это - b|SE(b). Она будет подчиняться t-распределению с (n-2) степенями свободы.</li>
62
<ol><li>Вычистить статистику критерия. Это - b|SE(b). Она будет подчиняться t-распределению с (n-2) степенями свободы.</li>
63
<li>SE(b) - это стандартная ошибка коэффициента под названием b.</li>
63
<li>SE(b) - это стандартная ошибка коэффициента под названием b.</li>
64
<li>Воспользоваться формулами:.</li>
64
<li>Воспользоваться формулами:.</li>
65
</ol><p>Если значимость P< 0,005, целесообразно говорить о том, что нулевая гипотеза отклоняется. Можно провести расчеты 95% доверительного интервала для генерального углового коэффициента β. Он будет равен: b±t0,05SE(b), где t0,05 - это процентная точка t-распределения со степенью свободы равной (n-2). Это дает вероятность двустороннего критерия 0,05. Полученный интервал несет в себе генеральный угловой коэффициент с вероятностью 95%.</p>
65
</ol><p>Если значимость P< 0,005, целесообразно говорить о том, что нулевая гипотеза отклоняется. Можно провести расчеты 95% доверительного интервала для генерального углового коэффициента β. Он будет равен: b±t0,05SE(b), где t0,05 - это процентная точка t-распределения со степенью свободы равной (n-2). Это дает вероятность двустороннего критерия 0,05. Полученный интервал несет в себе генеральный угловой коэффициент с вероятностью 95%.</p>
66
<p>Для больших выборок (больше или равно 100) можно аппроксимировать t0,05 значением 1,96. Статистика критерия стремится к нормальному распределению.</p>
66
<p>Для больших выборок (больше или равно 100) можно аппроксимировать t0,05 значением 1,96. Статистика критерия стремится к нормальному распределению.</p>
67
<h2>Оценка качества</h2>
67
<h2>Оценка качества</h2>
68
<p>Если остаточная вариация имеющегося линейного соотношения как можно больше, то большая часть y объясняется регрессией. Точки здесь будут лежать близко к ее графику. То есть, линия хорошо соответствует имеющейся информации.</p>
68
<p>Если остаточная вариация имеющегося линейного соотношения как можно больше, то большая часть y объясняется регрессией. Точки здесь будут лежать близко к ее графику. То есть, линия хорошо соответствует имеющейся информации.</p>
69
<p>Коэффициент детерминации - это доля общей дисперсии y. Выражается процентным соотношением. Обозначение - R2. В парных регрессиях это - r2, называемый квадратом коэффициента корреляции). Он позволяет оценивать качество заданного уравнения субъективным методом.</p>
69
<p>Коэффициент детерминации - это доля общей дисперсии y. Выражается процентным соотношением. Обозначение - R2. В парных регрессиях это - r2, называемый квадратом коэффициента корреляции). Он позволяет оценивать качество заданного уравнения субъективным методом.</p>
70
<p>Разность (100-R2) - это процент дисперсии. Он никак не объясняется через регрессию. Формального теста для оценивания R2 нет. Из-за этого приходится опираться на субъективные суждения, которые помогают определить качество подгонки регрессионных линий.</p>
70
<p>Разность (100-R2) - это процент дисперсии. Он никак не объясняется через регрессию. Формального теста для оценивания R2 нет. Из-за этого приходится опираться на субъективные суждения, которые помогают определить качество подгонки регрессионных линий.</p>
71
<p><a>Здесь</a>можно посмотреть, как грамотно использовать линейные "уравнения" рассмотренного типа для тех или иных задач. Наглядные примеры помогут понять, насколько соответствующий компонент важен в аналитике. А<a>вот</a>- видео-урок по линейным "зависимостям".</p>
71
<p><a>Здесь</a>можно посмотреть, как грамотно использовать линейные "уравнения" рассмотренного типа для тех или иных задач. Наглядные примеры помогут понять, насколько соответствующий компонент важен в аналитике. А<a>вот</a>- видео-урок по линейным "зависимостям".</p>
72
<h2>Секрет быстрого изучения</h2>
72
<h2>Секрет быстрого изучения</h2>
73
<p>Для того, чтобы лучше понимать изученную тему, можно внимательно просмотреть статистику и математический анализ. Но лучше всего воспользоваться дистанционными специализированными онлайн курсами.</p>
73
<p>Для того, чтобы лучше понимать изученную тему, можно внимательно просмотреть статистику и математический анализ. Но лучше всего воспользоваться дистанционными специализированными онлайн курсами.</p>
74
<p>Там научат не только основам матанализа, но и непосредственной разработке программного обеспечения с нуля. Пользователи получают уникальную возможность приобретения навыков работы с графикой, анимацией, программными кодами и даже BigData. В конце будет выдан электронный сертификат, подтверждающий соответствующий спектр навыков и знаний.</p>
74
<p>Там научат не только основам матанализа, но и непосредственной разработке программного обеспечения с нуля. Пользователи получают уникальную возможность приобретения навыков работы с графикой, анимацией, программными кодами и даже BigData. В конце будет выдан электронный сертификат, подтверждающий соответствующий спектр навыков и знаний.</p>
75
<a></a>
75
<a></a>