HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: машинное обучение, machine learning, ml-инженер, бэггинг, случайный лес</p>
1 <p>Теги: машинное обучение, machine learning, ml-инженер, бэггинг, случайный лес</p>
2 <p>Как известно, алгоритм машинного обучения "<strong>Случайный лес</strong>" (Random forest) основывается на принципе бэггинга, то есть на усреднении предсказания нескольких независимых моделей. Но что, если у нас только одна обучающая выборка? Каким образом в данном случае мы получим независимые модели? И почему на практике это не приводит к проблемам?</p>
2 <p>Как известно, алгоритм машинного обучения "<strong>Случайный лес</strong>" (Random forest) основывается на принципе бэггинга, то есть на усреднении предсказания нескольких независимых моделей. Но что, если у нас только одна обучающая выборка? Каким образом в данном случае мы получим независимые модели? И почему на практике это не приводит к проблемам?</p>
3 <p>Для начала вспомним, что идея<strong>бэггинга</strong>(беггинга) заключается в том, чтобы просто агрегировать предсказания, которые выдаются базовыми моделями (к примеру, усреднять либо брать наиболее популярное предсказание). А для того, чтобы результат получился качественным, важно, чтобы каждая модель являлась достаточно сильной (именно поэтому главный пример бэггинга - это случайный лес, который задействует глубокие и переобученные решающие деревья).</p>
3 <p>Для начала вспомним, что идея<strong>бэггинга</strong>(беггинга) заключается в том, чтобы просто агрегировать предсказания, которые выдаются базовыми моделями (к примеру, усреднять либо брать наиболее популярное предсказание). А для того, чтобы результат получился качественным, важно, чтобы каждая модель являлась достаточно сильной (именно поэтому главный пример бэггинга - это случайный лес, который задействует глубокие и переобученные решающие деревья).</p>
4 <p>Всё так, но давайте теперь вернемся к вопросам, которые заданы в начале статьи. Дело в том, что на практике оказывается, что, по сути,<strong>строгое выполнение предположения о независимости обязательным не является</strong>. То есть вполне достаточно, чтобы алгоритмы являлись лишь в некоторой степени непохожими друг на друга. При этом достаточная непохожесть будет обеспечена тем, что в процессе обучения каждого дерева мы:</p>
4 <p>Всё так, но давайте теперь вернемся к вопросам, которые заданы в начале статьи. Дело в том, что на практике оказывается, что, по сути,<strong>строгое выполнение предположения о независимости обязательным не является</strong>. То есть вполне достаточно, чтобы алгоритмы являлись лишь в некоторой степени непохожими друг на друга. При этом достаточная непохожесть будет обеспечена тем, что в процессе обучения каждого дерева мы:</p>
5 <ul><li>возьмем случайное подмножество обучающей выборки;</li>
5 <ul><li>возьмем случайное подмножество обучающей выборки;</li>
6 <li>возьмем случайное подмножество признаков.</li>
6 <li>возьмем случайное подмножество признаков.</li>
7 </ul><p>Как-то так. Причем знание вышеописанных нюансов может вам пригодиться при прохождении собеседования. Кстати, раз мы уже заговорили об<strong>ансамблях ML-моделей</strong>, таких как бэггинг, то более подробную информацию можно найти<a>здесь</a>.</p>
7 </ul><p>Как-то так. Причем знание вышеописанных нюансов может вам пригодиться при прохождении собеседования. Кстати, раз мы уже заговорили об<strong>ансамблях ML-моделей</strong>, таких как бэггинг, то более подробную информацию можно найти<a>здесь</a>.</p>
8 <p><em>По материалам tproger.ru.</em></p>
8 <p><em>По материалам tproger.ru.</em></p>
9  
9