Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: machine learning, data scientist, data science, big data, ансамблирование моделей, улучшение качества предсказаний, модели с разной начальной инициализацией параметров, модели на разных поднаборах признаках, модели на разных поднаборах данных, logsumexp трюк, em-алгоритм, апостериорное распределение на скрытые переменные и числа, scipy

2 Ансамблирование моделей- в машинном обучении техника для улучшения качества предсказаний. Основная идея заключается в том, что отдельно обучаются несколько моделей, а далее их предсказания усредняются. Давайте разберём, почему вообще это работает.

3 Представим, что решаем задачу регрессии, и мы обучилиn-моделей, каждая из которых имеет ошибкуϵi. Будем считать, что все ошибки распределены по нормальному закону с нулевым средним: дисперсией:и ковариацией:

4 Средняя ошибка предсказаний ансамбля моделей равна следующему выражению: Распишем математическое ожидание квадрата этой ошибки и получим следующее равенство: Правая часть формулы позволяет сделать интересные наблюдения: - если c=v, что означает - ошибки разных моделей идеально коррелированы, то мы получим, что квадрат ошибки никак не изменится, - если c=0, когда предсказания моделей не скоррелированы, то мы получим линейное уменьшение ошибки с ростом количества моделей в ансамбле, - в промежуточных значениях, мы получаем уменьшение ошибки.

5 Таким образом можно сделать выводы: - ансамблирование моделей с одинаковыми ошибками не уменьшает ошибку ансамбля, - чтобы получить значительное уменьшение ошибки мы должны ансамблировать модели, в которых предсказания, а следовательно и ошибки, сильно отличаются.

6 Приёмы, с помощью которых можно получить модели с некоррелированными предсказаниями: - обучить модели на разных поднаборах данных, - обучить модели на разных поднаборах признаках, - обучить модели с разной начальной инициализацией параметров, - обучить разные типы моделей модели.

7 Данные приёмы очень активно применяются в соревнованиях по анализу данных. Таким образом, мы рассмотрели простой и эффективный способ повышения качества модели.

8 Есть вопрос? Напишите в комментариях!