HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <p>Теги: обучение с подкреплением, reinforcement learning, rl</p>
1 <p>Теги: обучение с подкреплением, reinforcement learning, rl</p>
2 <p><strong>Reinforcement Learning</strong>-- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.</p>
2 <p><strong>Reinforcement Learning</strong>-- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.</p>
3 <p>Основная идея<strong>Reinforcement Learning (RL)</strong>заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.</p>
3 <p>Основная идея<strong>Reinforcement Learning (RL)</strong>заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.</p>
4 <p>Работа с RL предполагает знание ряда<strong>терминов</strong>:</p>
4 <p>Работа с RL предполагает знание ряда<strong>терминов</strong>:</p>
5 <ol><li><strong>Агент</strong>(agent): система, выполняющая действия.</li>
5 <ol><li><strong>Агент</strong>(agent): система, выполняющая действия.</li>
6 <li><strong>Среда</strong>(environment, e): сценарий/окружение, с которым/в котором работает агент.</li>
6 <li><strong>Среда</strong>(environment, e): сценарий/окружение, с которым/в котором работает агент.</li>
7 <li><strong>Награда</strong>(reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.</li>
7 <li><strong>Награда</strong>(reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.</li>
8 <li><strong>Состояние</strong>(state, s): относится к текущему положению, возвращаемому средой.</li>
8 <li><strong>Состояние</strong>(state, s): относится к текущему положению, возвращаемому средой.</li>
9 <li><strong>Политика</strong>(policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.</li>
9 <li><strong>Политика</strong>(policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.</li>
10 <li><strong>Стоимость</strong>(value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).</li>
10 <li><strong>Стоимость</strong>(value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).</li>
11 <li><strong>Значение Функции</strong>(value function): значение определяет размер переменной, формирующей общую сумму награды.</li>
11 <li><strong>Значение Функции</strong>(value function): значение определяет размер переменной, формирующей общую сумму награды.</li>
12 <li><strong>Модель среды</strong>(Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.</li>
12 <li><strong>Модель среды</strong>(Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.</li>
13 <li><strong>Значение Q/значение действия (Q)</strong>: очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.</li>
13 <li><strong>Значение Q/значение действия (Q)</strong>: очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.</li>
14 </ol><p>Хотите знать про Reinforcement Learning больше? Обратите внимание на<a>следующий курс в Otus</a>!</p>
14 </ol><p>Хотите знать про Reinforcement Learning больше? Обратите внимание на<a>следующий курс в Otus</a>!</p>
15 <p><em>По материалам https://proglib.io.</em></p>
15 <p><em>По материалам https://proglib.io.</em></p>
16  
16