Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 Теги: обучение с подкреплением, reinforcement learning, rl

2 Reinforcement Learning-- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.

3 Основная идеяReinforcement Learning (RL)заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.

4 Работа с RL предполагает знание рядатерминов:

5 <ol><li>Агент(agent): система, выполняющая действия.</li>

6 <li>Среда(environment, e): сценарий/окружение, с которым/в котором работает агент.</li>

7 <li>Награда(reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.</li>

8 <li>Состояние(state, s): относится к текущему положению, возвращаемому средой.</li>

9 <li>Политика(policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.</li>

10 <li>Стоимость(value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).</li>

11 <li>Значение Функции(value function): значение определяет размер переменной, формирующей общую сумму награды.</li>

12 <li>Модель среды(Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.</li>

13 <li>Значение Q/значение действия (Q): очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.</li>

14 </ol>Хотите знать про Reinforcement Learning больше? Обратите внимание на<a>следующий курс в Otus</a>!

15 По материалам https://proglib.io.