0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<p>Теги: обучение с подкреплением, reinforcement learning, rl</p>
1
<p>Теги: обучение с подкреплением, reinforcement learning, rl</p>
2
<p><strong>Reinforcement Learning</strong>-- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.</p>
2
<p><strong>Reinforcement Learning</strong>-- это обучение с подкреплением и ML-метод, при использовании которого система обучается посредством проб и ошибок. Рассмотрим основную идею и термины.</p>
3
<p>Основная идея<strong>Reinforcement Learning (RL)</strong>заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.</p>
3
<p>Основная идея<strong>Reinforcement Learning (RL)</strong>заключается в том, что обучение системы происходит параллельно со взаимодействием со средой, при этом применяется способ положительной награды в случае правильного действия и отрицательной реакции при действии неправильном. В результате система (ее называют агентом) программируется на поиск максимального вознаграждения, то есть учится избегать негативных результатов.</p>
4
<p>Работа с RL предполагает знание ряда<strong>терминов</strong>:</p>
4
<p>Работа с RL предполагает знание ряда<strong>терминов</strong>:</p>
5
<ol><li><strong>Агент</strong>(agent): система, выполняющая действия.</li>
5
<ol><li><strong>Агент</strong>(agent): система, выполняющая действия.</li>
6
<li><strong>Среда</strong>(environment, e): сценарий/окружение, с которым/в котором работает агент.</li>
6
<li><strong>Среда</strong>(environment, e): сценарий/окружение, с которым/в котором работает агент.</li>
7
<li><strong>Награда</strong>(reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.</li>
7
<li><strong>Награда</strong>(reward, R): немедленный положительный или отрицательный возврат, который получает агент после выполнения действия/задачи.</li>
8
<li><strong>Состояние</strong>(state, s): относится к текущему положению, возвращаемому средой.</li>
8
<li><strong>Состояние</strong>(state, s): относится к текущему положению, возвращаемому средой.</li>
9
<li><strong>Политика</strong>(policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.</li>
9
<li><strong>Политика</strong>(policy, π): речь идет о стратегии, применяемой агентом при принятии решения о следующем действии на основании текущего состояния.</li>
10
<li><strong>Стоимость</strong>(value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).</li>
10
<li><strong>Стоимость</strong>(value, V): награда, ожидаемая в долгосрочной перспективе. Если сравнивать с краткосрочным вознаграждением, принимается во внимание скидка (discount).</li>
11
<li><strong>Значение Функции</strong>(value function): значение определяет размер переменной, формирующей общую сумму награды.</li>
11
<li><strong>Значение Функции</strong>(value function): значение определяет размер переменной, формирующей общую сумму награды.</li>
12
<li><strong>Модель среды</strong>(Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.</li>
12
<li><strong>Модель среды</strong>(Model of the environment): имитатор поведения среды (демо-версия вашей модели). Позволяет понять, как будет вести себя среда.</li>
13
<li><strong>Значение Q/значение действия (Q)</strong>: очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.</li>
13
<li><strong>Значение Q/значение действия (Q)</strong>: очень похоже на value (V) с той лишь разницей, что Q принимает в качестве текущего действия дополнительный параметр.</li>
14
</ol><p>Хотите знать про Reinforcement Learning больше? Обратите внимание на<a>следующий курс в Otus</a>!</p>
14
</ol><p>Хотите знать про Reinforcement Learning больше? Обратите внимание на<a>следующий курс в Otus</a>!</p>
15
<p><em>По материалам https://proglib.io.</em></p>
15
<p><em>По материалам https://proglib.io.</em></p>
16
16