rlsarsaagentoptions

SARSA代理的选项

在页面中扩展全部

描述

使用rlsarsaagentoptions目的to specify options for creating SARSA agents. To create a SARSA agent, userlsarsaagent

有关SARSA代理商的更多信息，请参阅SARSA代理商。

有关不同类型的强化学习代理的更多信息，请参见强化学习者。

创建

句法

opt = rlsarsaagentoptions

opt = rlsarsaagentoptions（名称，值）

描述

选择= rlsarsaagentoptions创建一个rlsarsaagentoptions使用所有默认设置创建SARSA代理时用作参数的对象。您可以使用点表示法修改对象属性。

例子

选择= rlsarsaagentoptions（名称，价值）设置选项properties使用名称值对。例如，rlsarsaagentoptions（'discountFactor'，0.95）创建一个选项设置，折扣系数为0.95。您可以指定多个名称值对。将每个属性名称包装在报价中。

特性

展开全部

`Epsilongreedy探索`-Epsilon-Greedy探索的选项
`Epsilongreedy探索`目的

Epsilon-Greedy探索的选项，指定为Epsilongreedy探索具有以下属性的对象。

财产	描述	默认值
`Epsilon`	Probability threshold to either randomly select an action or select the action that maximizes the state-action value function. A larger value of`Epsilon`意味着代理以更高的速率随机探索动作空间。	`1`
`Epsilonmin`	最小值`Epsilon`	`0.01`
`Epsilondecay`	Decay rate	`0.0050`

在每个训练时间步骤结束时，如果Epsilon是greater thanEpsilonmin，然后使用以下公式对其进行更新。

Epsilon= Epsilon*(1-EpsilonDecay)

如果您的代理商在本地Optima上收敛过快，则可以通过增加来促进代理商探索Epsilon。

要指定探索选项，请在创建后使用点符号rlsarsaagentoptions目的选择。例如，将Epsilon值设置为0.9。

opt.epsilongreedyexploration.epsilon = 0.9;

`批评者`-Critic optimizer options
`rloptimizerOptions`目的

Critic optimizer options, specified as anrloptimizerOptions目的。它允许您指定评论家近似器的培训参数，例如学习率，梯度阈值以及优化器算法及其参数。有关更多信息，请参阅rloptimizerOptionsandrloptimizer。

`采样时间`-剂的样本时间
`1`（默认）|正标量|`-1`

试剂的样本时间，指定为正标量或AS-1。将此参数设置为-1允许基于事件的模拟。

在模拟中万博1manbetx^®环境，RL Agent指定执行代理的块采样时间二秒的模拟时间。如果采样时间是-1，该块从其父母子系统继承了样本时间。

Within a MATLAB^®环境，每次环境前进时都会执行代理。在这种情况下，采样时间是the time interval between consecutive elements in the output experience returned bySIMor火车。如果采样时间是-1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时机。

`折现量`-Discount factor
`0.99`（默认）|阳性标量小于或等于1

折扣因子适用于培训期间未来奖励，指定为阳性标量小于或等于1。

对象功能

rlsarsaagent SARSA加固学习代理

例子

全部收缩

创建SARSA代理选项对象

Open Live Script

此示例显示了如何创建SARSA代理选项对象。

创建一个rlsarsaagentoptions目的that specifies the agent sample time.

opt = rlsarsaagentoptions（'采样时间',0.5)

opt = rlsarsaagentoptionswith properties: EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration] CriticOptimizerOptions: [1x1 rl.option.rlOptimizerOptions] SampleTime: 0.5000 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

You can modify options using dot notation. For example, set the agent discount factor to0.95。

选择。折现量= 0.95;

rlsarsaagentoptions

描述

创建

句法

描述

特性

`Epsilongreedy探索`-Epsilon-Greedy探索的选项
`Epsilongreedy探索`目的

`批评者`-Critic optimizer options
`rloptimizerOptions`目的

`采样时间`-剂的样本时间
`1`（默认）|正标量|`-1`

`折现量`-Discount factor
`0.99`（默认）|阳性标量小于或等于1

对象功能

例子

创建SARSA代理选项对象

版本历史记录

也可以看看

话题

rlsarsaagentoptions

描述

创建

句法

描述

特性

Epsilongreedy探索-Epsilon-Greedy探索的选项Epsilongreedy探索目的

批评者-Critic optimizer optionsrloptimizerOptions目的

采样时间-剂的样本时间1（默认）|正标量|-1

折现量-Discount factor0.99（默认）|阳性标量小于或等于1

对象功能

例子

创建SARSA代理选项对象

版本历史记录

也可以看看

话题

`Epsilongreedy探索`-Epsilon-Greedy探索的选项
`Epsilongreedy探索`目的

`批评者`-Critic optimizer options
`rloptimizerOptions`目的

`采样时间`-剂的样本时间
`1`（默认）|正标量|`-1`

`折现量`-Discount factor
`0.99`（默认）|阳性标量小于或等于1