Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: машинное обучение, machine learning, data scientist, мультиколлинеарность, регуляризация, обучение моделей, корреляция

2 Как известно, уменьшение размерности применяется вмашинном обучениив двух целях: для визуализации (чтобы данные с большим количеством признаков можно было отобразить в двух- или трёхмерном пространстве) и для уменьшения количества переменных.

3 Второе применение является более фундаментальным, базовым и основным. Здесь уместно вспомнить курс школьной математики, а точнее, систему уравнений, в которой переменных было больше, чем самих уравнений. И решить его в школьные годы мы, разумеется, не могли.

4 Похожую аналогию можно провести и с задачами поMachine Learning, когда в количественном отношении данных меньше, чем признаков. Обучить такую модель достаточно сложно, да и хорошо работать она, скорее всего, не будет. Вдобавок ко всему, при увеличении размерности задачи данные приобретают сложно анализируемый для модели характер.

5 Продолжая говорить о базовых вещах, нельзя не вспомнить о понятиимультиколлинеарности. Когда в матрице признаков какие-то признаки являются линейной комбинацией друг друга - это называется сильной коллинеарностью (грубо говоря, можно выразить один признак через другой), а когда речь идёт о сильной корреляции - это слабая или частичная коллинеарность, что тоже плохо. Такая задача решается очень неустойчиво.

6 <h2>Как бороться с мультиколлинеарностью?</h2>

7 Один из подходов - уменьшить размерность, но не просто выкинуть переменные, а перейти к другим переменным. Другой подход борьбы с мультиколлинеарностью - всем известная регуляризация:

8 L1 - lasso regression: L2 - ridge regression: Штрафуя модель, мы ограничиваем то количество решений, которое в случае смультиколлинеарностьюслишком велико или бесконечно, некоторым набором решений. Да, в результате мы получаем несколько смещённую оценку, но она смещена не сильно. Таким образом от глобальной проблемы (задачу решить в принципе нельзя) мы переходим к конкретному результату, когдазадача решенане самым оптимальным способом, но, тем не менее, устойчивое решение мы нашли.

9 Вообще, можно показывать очень интересные вещи с матричными фокусами, однако об этом пойдёт разговор в лекции просингулярное разложение SVD. Если не хотите её пропустить, записывайтесь на курс<a>"Data Scientist"</a>в OTUS!

10 Есть вопрос? Напишите в комментариях!