Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: машинное обучение, machine learning, ml-инженер, бэггинг, случайный лес

2 Как известно, алгоритм машинного обучения "Случайный лес" (Random forest) основывается на принципе бэггинга, то есть на усреднении предсказания нескольких независимых моделей. Но что, если у нас только одна обучающая выборка? Каким образом в данном случае мы получим независимые модели? И почему на практике это не приводит к проблемам?

3 Для начала вспомним, что идеябэггинга(беггинга) заключается в том, чтобы просто агрегировать предсказания, которые выдаются базовыми моделями (к примеру, усреднять либо брать наиболее популярное предсказание). А для того, чтобы результат получился качественным, важно, чтобы каждая модель являлась достаточно сильной (именно поэтому главный пример бэггинга - это случайный лес, который задействует глубокие и переобученные решающие деревья).

4 Всё так, но давайте теперь вернемся к вопросам, которые заданы в начале статьи. Дело в том, что на практике оказывается, что, по сути,строгое выполнение предположения о независимости обязательным не является. То есть вполне достаточно, чтобы алгоритмы являлись лишь в некоторой степени непохожими друг на друга. При этом достаточная непохожесть будет обеспечена тем, что в процессе обучения каждого дерева мы:

5 <ul><li>возьмем случайное подмножество обучающей выборки;</li>

6 <li>возьмем случайное подмножество признаков.</li>

7 </ul>Как-то так. Причем знание вышеописанных нюансов может вам пригодиться при прохождении собеседования. Кстати, раз мы уже заговорили обансамблях ML-моделей, таких как бэггинг, то более подробную информацию можно найти<a>здесь</a>.

8 По материалам tproger.ru.