主要内容

rlpgagentoptions.

PG代理选项

描述

用A.rlpgagentoptions.对象为指定策略渐变(PG)代理的选项。创建PG代理,使用rlpgagent.

有关PG代理商的更多信息,请参阅政策梯度代理人

有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人

创建

描述

选择= rlPGAgentOptions创造一个rlpgagentoptions.使用所有默认设置创建PG代理时用作参数的对象。您可以使用点表示法修改对象属性。

例子

选择= rlPGAgentOptions (名称,价值设置选项属性使用名称值对。例如,rlPGAgentOptions (DiscountFactor, 0.95)创建一个选项设置,折扣系数0.95。您可以指定多个名称值对。将每个属性名称括在引号中。

特性

展开全部

使用基线进行学习的选项,指定为逻辑值。什么时候UseBaseline真正的,您必须将批评网络指定为基线函数近似器。

一般来说,对于参与者网络较小的简单问题,PG代理在没有基线的情况下工作得更好。

选项以模拟和策略生成的最大可能性返回动作,指定为逻辑值。什么时候Usedeterministicexploitation.被设置为真正的时,总是使用最大似然的动作SIM生成policyfunction.,这使得代理具有确定性的行为。

什么时候Usedeterministicexploitation.被设置为错误的,代理示例了从概率分布的动作,这导致代理随机行事。

代理的采样时间,指定为正标量。

在Simulink万博1manbetx中®环境,代理商每次执行采样时间模拟时间秒。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,采样时间返回的输出经验中连续元素之间的时间间隔是多少SIM火车

在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。

熵损失重量,指定为标量值0.1。较高的损失重量值通过对太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人迁出当地的Optima。

集步骤T.,熵丢失函数,被添加到演员更新的丢失函数,是:

H T. = E. σ. K. = 1 m μ K. S. T. | θ μ LN. μ K. S. T. | θ μ

这里:

  • E.是熵减重量。

  • m是可能的行动的数量。

  • μK.S.T.|θμ)是采取行动的可能性一种K.在状态时S.T.按照现行政策。

当在训练期间计算梯度时,计算额外的梯度分量以最小化该损失函数。

对象功能

rlpgagent. 政策梯度强化学习代理

例子

全部收缩

这个例子展示了如何创建和修改一个PG代理选项对象。

创建一个PG代理选项对象,指定折扣因子。

opt = rlpgagentoptions('贴花因子',0.9)
OPT =具有属性的RLPGGENTOPTIONS:USEBASELINE:1 Entropylossweight:0 UsedeterministiceXploitation:0 Sampletime:1折扣摩擦:0.9000

您可以使用点表示法修改选项。例如,将代理采样时间设置为0.5

opt.sampletime = 0.5;

也可以看看

在R2019A介绍