HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: machine learning, data scientist, data science, big data, ансамблирование моделей, улучшение качества предсказаний, модели с разной начальной инициализацией параметров, модели на разных поднаборах признаках, модели на разных поднаборах данных, logsumexp трюк, em-алгоритм, апостериорное распределение на скрытые переменные и числа, scipy</p>
1 <p>Теги: machine learning, data scientist, data science, big data, ансамблирование моделей, улучшение качества предсказаний, модели с разной начальной инициализацией параметров, модели на разных поднаборах признаках, модели на разных поднаборах данных, logsumexp трюк, em-алгоритм, апостериорное распределение на скрытые переменные и числа, scipy</p>
2 <p><strong>Ансамблирование моделей</strong>- в машинном обучении техника для улучшения качества предсказаний. Основная идея заключается в том, что отдельно обучаются несколько моделей, а далее их предсказания усредняются. Давайте разберём, почему вообще это работает.</p>
2 <p><strong>Ансамблирование моделей</strong>- в машинном обучении техника для улучшения качества предсказаний. Основная идея заключается в том, что отдельно обучаются несколько моделей, а далее их предсказания усредняются. Давайте разберём, почему вообще это работает.</p>
3 <p>Представим, что решаем задачу регрессии, и мы обучили<em>n</em>-моделей, каждая из которых имеет ошибку<em>ϵi</em>. Будем считать, что все ошибки распределены по нормальному закону с нулевым средним: дисперсией:и ковариацией:</p>
3 <p>Представим, что решаем задачу регрессии, и мы обучили<em>n</em>-моделей, каждая из которых имеет ошибку<em>ϵi</em>. Будем считать, что все ошибки распределены по нормальному закону с нулевым средним: дисперсией:и ковариацией:</p>
4 <p>Средняя ошибка предсказаний ансамбля моделей равна следующему выражению: Распишем математическое ожидание квадрата этой ошибки и получим следующее равенство: Правая часть формулы позволяет сделать интересные наблюдения: - если c=v, что означает - ошибки разных моделей идеально коррелированы, то мы получим, что квадрат ошибки никак не изменится, - если c=0, когда предсказания моделей не скоррелированы, то мы получим линейное уменьшение ошибки с ростом количества моделей в ансамбле, - в промежуточных значениях, мы получаем уменьшение ошибки.</p>
4 <p>Средняя ошибка предсказаний ансамбля моделей равна следующему выражению: Распишем математическое ожидание квадрата этой ошибки и получим следующее равенство: Правая часть формулы позволяет сделать интересные наблюдения: - если c=v, что означает - ошибки разных моделей идеально коррелированы, то мы получим, что квадрат ошибки никак не изменится, - если c=0, когда предсказания моделей не скоррелированы, то мы получим линейное уменьшение ошибки с ростом количества моделей в ансамбле, - в промежуточных значениях, мы получаем уменьшение ошибки.</p>
5 <p>Таким образом можно сделать выводы: - ансамблирование моделей с одинаковыми ошибками не уменьшает ошибку ансамбля, - чтобы получить значительное уменьшение ошибки мы должны ансамблировать модели, в которых предсказания, а следовательно и ошибки, сильно отличаются.</p>
5 <p>Таким образом можно сделать выводы: - ансамблирование моделей с одинаковыми ошибками не уменьшает ошибку ансамбля, - чтобы получить значительное уменьшение ошибки мы должны ансамблировать модели, в которых предсказания, а следовательно и ошибки, сильно отличаются.</p>
6 <p>Приёмы, с помощью которых можно получить модели с некоррелированными предсказаниями: - обучить модели на разных поднаборах данных, - обучить модели на разных поднаборах признаках, - обучить модели с разной начальной инициализацией параметров, - обучить разные типы моделей модели.</p>
6 <p>Приёмы, с помощью которых можно получить модели с некоррелированными предсказаниями: - обучить модели на разных поднаборах данных, - обучить модели на разных поднаборах признаках, - обучить модели с разной начальной инициализацией параметров, - обучить разные типы моделей модели.</p>
7 <p>Данные приёмы очень активно применяются в соревнованиях по анализу данных. Таким образом, мы рассмотрели простой и эффективный способ повышения качества модели.</p>
7 <p>Данные приёмы очень активно применяются в соревнованиях по анализу данных. Таким образом, мы рассмотрели простой и эффективный способ повышения качества модели.</p>
8 <p><em>Есть вопрос? Напишите в комментариях!</em></p>
8 <p><em>Есть вопрос? Напишите в комментариях!</em></p>
9  
9