rlACAgentOptions

AC代理的选择

全部展开到页面中

描述

使用一个rlACAgentOptions对象，以指定用于创建actor-批评家(AC)代理的选项。要创建一个actor-批评家代理，使用rlACAgent

有关更多信息，请参见Actor-Critic代理。

有关不同类型的强化学习代理的更多信息，请参见强化学习代理。

创建

语法

选择= rlACAgentOptions

选择= rlACAgentOptions(名称、值)

描述

选择= rlACAgentOptions为AC代理创建一个默认选项集。可以使用点符号修改对象属性。

例子

选择= rlACAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个折扣因子为的选项集0.95。可以指定多个名称-值对。将每个属性名括在引号中。

属性

全部展开

`NumStepsToLookAhead`- - - - - -前进的步数
`1`(默认)|正整数

在模型训练中向前看的步骤数，指定为正整数。对于AC agent，前瞻的步数与训练的集长相对应。

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`

熵损失权值，指定为之间的一个标量值0和1、包容。较高的减重值通过对采取何种行动过于确定而施加惩罚来促进代理的探索。这样做可以帮助代理移出局部optima。

插曲步的熵损失函数t是:

$H_{t} = E •_{k = 1}^{米} μ_{k} ({年代}_{t} | θ_{μ}) \ln μ_{k} ({年代}_{t} | θ_{μ})$

在这里:

E是熵损失的重量。
米是可能的操作数。
μ_k(年代_t)是采取行动的概率一个_k在国家年代_t遵循现行政策。

在训练过程中，当梯度被计算时，一个附加的梯度分量被计算来最小化这个损失函数。

`SampleTime`- - - - - -代理样品时间
`1`(默认)|积极的标量

代理的样本时间，指定为正的标量。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正的标量

在训练期间应用于未来奖励的折扣因子，指定为小于或等于1的正标量。

对象的功能

rlACAgent 角色-批评家强化学习代理

例子

全部折叠

创建AC代理选项对象

打开生活的脚本

创建一个AC代理选项对象，指定折扣因子。

选择= rlACAgentOptions (“DiscountFactor”,0.95)

opt = rlACAgentOptions，其属性为:NumStepsToLookAhead: 1 EntropyLossWeight: 0 SampleTime: 1 DiscountFactor: 0.9500

可以使用点符号修改选项。例如，将代理示例时间设置为0.5。

opt.SampleTime = 0.5;

另请参阅

主题

Actor-Critic代理

介绍了R2019a

强化学习工具箱文档

万博1manbetx

尝试MATLAB、Sim万博1manbetxulink和其他产品s manbetx 845

得到审判现在