RLSargentOptions

SARSA代理的选择

在第页中展开全部

描述

使用RLSargentOptions对象来指定用于创建SARSA代理的选项。要创建SARSA代理，请使用萨金特

有关SARSA代理的更多信息，请参阅萨尔萨特工.

有关不同类型的强化学习代理的更多信息，请参阅强化学习代理.

创造

语法

opt=rlsargentoptions

opt=rlsargentoptions（名称、值）

描述

选择=rlsargentoptions创建一个RLSargentOptions对象，在使用所有默认设置创建SARSA代理时用作参数。可以使用点表示法修改对象属性。

实例

选择=rlsargentoptions(名称、值)设置选项性质使用名称-值对。例如RLSargantOptions（'DiscountFactor'，0.95）创建折扣系数为的选项集0.95. 可以指定多个名称-值对。用引号将每个属性名称括起来。

性质

全部展开

`epsilongreedexploration`—epsilon贪婪探索的选项
`epsilongreedexploration`对象

epsilon贪婪探索的选项，指定为epsilongreedexploration对象具有以下属性。

所有物	描述	默认值
`ε`	随机选择动作或选择使状态动作值函数最大化的动作的概率阈值`ε`意味着代理以更高的速率随机探索动作空间。	`1.`
`EpsilonMin`	最小值`ε`	`0.01`
`ε`	衰变率	`0.0050`

在每个训练时间步结束时，如果ε大于EpsilonMin，然后使用以下公式进行更新。

ε=ε*（1-ε）

如果您的代理过于快速地收敛于局部最优解，您可以通过增加ε.

要指定探索选项，请在创建RLSargentOptions对象选择. 例如，将ε值设置为0.9.

opt.epsilongreedexploration.Epsilon=0.9；

`取样时间`—试剂取样时间
`1.`（默认）|正标量

代理的采样时间，指定为正标量。

在Simulink万博1manbetx中^®环境中，代理将在每个取样时间秒的模拟时间。

在MATLAB中^®环境中，代理在环境每次前进时都会执行。然而取样时间是由返回的输出体验中连续元素之间的时间间隔模拟或火车.

`折扣因素`—贴现系数
`0.99`（默认）|小于或等于1的正标量

用于培训期间未来奖励的贴现因子，指定为小于或等于1的正标量。

目标函数

萨金特 强化学习代理

例子

全部崩溃

创建一个SARSA代理选项对象

打开实时脚本

此示例演示如何创建SARSA代理选项对象。

创建一个RLSargentOptions对象，该对象指定代理采样时间。

opt=rlsargentoptions(“采样时间”,0.5)

opt=rlSarAgentOptions，属性为：epsilongreedExploration:[1x1 rl.option.epsilongreedExploration]采样时间：0.5000折扣因子：0.9900

您可以使用点符号修改选项。例如，将代理折扣系数设置为0.95.

opt.depresentfactor=0.95；

另见

话题

萨尔萨特工

在R2019a中引入

强化学习工具箱文档

万博1manbetx

基于MATLAB和Simulink的强化学习万博1manbetx

下载电子书