0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: машинное обучение, machine learning, ml-инженер, бэггинг, случайный лес</p>
1
<p>Теги: машинное обучение, machine learning, ml-инженер, бэггинг, случайный лес</p>
2
<p>Как известно, алгоритм машинного обучения "<strong>Случайный лес</strong>" (Random forest) основывается на принципе бэггинга, то есть на усреднении предсказания нескольких независимых моделей. Но что, если у нас только одна обучающая выборка? Каким образом в данном случае мы получим независимые модели? И почему на практике это не приводит к проблемам?</p>
2
<p>Как известно, алгоритм машинного обучения "<strong>Случайный лес</strong>" (Random forest) основывается на принципе бэггинга, то есть на усреднении предсказания нескольких независимых моделей. Но что, если у нас только одна обучающая выборка? Каким образом в данном случае мы получим независимые модели? И почему на практике это не приводит к проблемам?</p>
3
<p>Для начала вспомним, что идея<strong>бэггинга</strong>(беггинга) заключается в том, чтобы просто агрегировать предсказания, которые выдаются базовыми моделями (к примеру, усреднять либо брать наиболее популярное предсказание). А для того, чтобы результат получился качественным, важно, чтобы каждая модель являлась достаточно сильной (именно поэтому главный пример бэггинга - это случайный лес, который задействует глубокие и переобученные решающие деревья).</p>
3
<p>Для начала вспомним, что идея<strong>бэггинга</strong>(беггинга) заключается в том, чтобы просто агрегировать предсказания, которые выдаются базовыми моделями (к примеру, усреднять либо брать наиболее популярное предсказание). А для того, чтобы результат получился качественным, важно, чтобы каждая модель являлась достаточно сильной (именно поэтому главный пример бэггинга - это случайный лес, который задействует глубокие и переобученные решающие деревья).</p>
4
<p>Всё так, но давайте теперь вернемся к вопросам, которые заданы в начале статьи. Дело в том, что на практике оказывается, что, по сути,<strong>строгое выполнение предположения о независимости обязательным не является</strong>. То есть вполне достаточно, чтобы алгоритмы являлись лишь в некоторой степени непохожими друг на друга. При этом достаточная непохожесть будет обеспечена тем, что в процессе обучения каждого дерева мы:</p>
4
<p>Всё так, но давайте теперь вернемся к вопросам, которые заданы в начале статьи. Дело в том, что на практике оказывается, что, по сути,<strong>строгое выполнение предположения о независимости обязательным не является</strong>. То есть вполне достаточно, чтобы алгоритмы являлись лишь в некоторой степени непохожими друг на друга. При этом достаточная непохожесть будет обеспечена тем, что в процессе обучения каждого дерева мы:</p>
5
<ul><li>возьмем случайное подмножество обучающей выборки;</li>
5
<ul><li>возьмем случайное подмножество обучающей выборки;</li>
6
<li>возьмем случайное подмножество признаков.</li>
6
<li>возьмем случайное подмножество признаков.</li>
7
</ul><p>Как-то так. Причем знание вышеописанных нюансов может вам пригодиться при прохождении собеседования. Кстати, раз мы уже заговорили об<strong>ансамблях ML-моделей</strong>, таких как бэггинг, то более подробную информацию можно найти<a>здесь</a>.</p>
7
</ul><p>Как-то так. Причем знание вышеописанных нюансов может вам пригодиться при прохождении собеседования. Кстати, раз мы уже заговорили об<strong>ансамблях ML-моделей</strong>, таких как бэггинг, то более подробную информацию можно найти<a>здесь</a>.</p>
8
<p><em>По материалам tproger.ru.</em></p>
8
<p><em>По материалам tproger.ru.</em></p>
9
9