主要内容

rlPPOAgentOptions

PPO代理的选项

描述

使用一个rlPPOAgentOptions对象指定策略优化(PPO)代理的选项。若要创建PPO代理,请使用rlPPOAgent

有关PPO代理的更多信息,请参阅近端政策优化代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择=rlPPOAgentOptions创建一个rlPPOAgentOptions对象,以在使用所有默认设置创建PPO代理时作为参数。可以使用点表示法修改对象属性。

例子

选择= rlPPOAgentOptions (名称,值设置选项性质使用名称-值对。例如,rlPPOAgentOptions (DiscountFactor, 0.95)创建折扣系数为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

代理从环境中吸取经验之前与环境交互的步骤数,指定为正整数。

ExperienceHorizon值必须大于或等于小批量价值。

用于限制每个策略更新步骤中的更改的剪辑因子,指定为小于的正标量1

熵损失权重,指定为之间的标量值01.较高的减重值会因过于确定该采取何种行动而受到惩罚,从而促进代理人探索。这样做可以帮助代理移出局部优化。

对于插曲步骤t,则熵损失函数为:

H t E k 1 M μ k 年代 t | θ μ 自然对数 μ k 年代 t | θ μ

在这里:

  • E是熵损失重量。

  • M是可能的行动的数量。

  • μk年代t|θμ)是采取行动的可能性一个k在国家年代t遵循现行政策。

当在训练过程中计算梯度时,将计算额外的梯度分量以使损失函数最小化。

用于每个学习时期的小批量大小,指定为正整数。当代理使用递归神经网络时,小批量被视为训练轨迹长度。

小批量值必须小于或等于ExperienceHorizon价值。

行动者和评论家网络从当前经验集中学到的时代的数量,指定为正整数。

估算优势值的方法,具体如下:

  • “gae”-广义优势估计

  • “有限地平线”-有限地平估计

有关这些方法的更多信息,请参阅近端政策优化代理

广义优势估计的平滑因子,指定为之间的标量值01、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”

选项返回操作,最大可能用于模拟和策略生成,指定为逻辑值。当UseDeterministicExploitation设置为符合事实的,具有最大可能性的动作通常用于sim卡生成策略函数,这使代理的行为具有决定性。

什么时候UseDeterministicExploitation设置为时,代理从概率分布中抽样行为,使代理表现为随机行为。

代理的采样时间,指定为正标量。

在一个模型万博1manbetx®环境中,代理被执行SampleTime秒的模拟时间。

在MATLAB中®环境中,代理在环境每次前进时都会执行。但是,SampleTime是由返回的输出体验中连续元素之间的时间间隔sim卡火车

用于培训期间未来奖励的贴现因子,指定为小于或等于1的正标量。

对象的功能

rlPPOAgent 近端策略优化强化学习代理

例子

全部折叠

创建PPO代理选项对象,指定体验范围。

opt=rlPPOAgentOptions(“体验地平线”, 256)
opt=rlppoagent属性选项:ExperienceHorizon:256 MiniBatchSize:128 ClipFactor:0.2000 EntropyLossWeight:0.0100 NumEpoch:3 Advantage估计方法:“gae”GAEFactor:0.9500 UseDeterministic剥削:0 SampleTime:1折扣因子:0.9900

您可以使用点符号修改选项。例如,将代理示例时间设置为0.5

opt.SampleTime=0.5;

另请参阅

介绍了R2019b