主要内容

rlPPOAgentOptions

选择PPO代理

自从R2019b

描述

使用一个rlPPOAgentOptions对象为近端指定选项政策优化(PPO)代理。创建一个PPO代理,使用rlPPOAgent

PPO代理的更多信息,请参阅近端政策优化(PPO)代理

更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

选择= rlPPOAgentOptions创建一个rlPPOAgentOptions对象用于创建PPO代理时作为参数使用默认设置。您可以修改对象属性使用点符号。

例子

选择= rlPPOAgentOptions (名称,值)设置选项属性使用名称-值参数。例如,rlPPOAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称参数。在报价附上每个属性的名字。

属性

全部展开

受托人与环境交互的步骤之前,学习其经验,指定为一个正整数。当代理并行训练,ExperienceHorizon被忽略,整个事件是用来计算梯度。

ExperienceHorizon值必须大于或等于MiniBatchSize价值。

Mini-batch大小用于每个学习时代,指定为一个正整数。当代理使用递归神经网络,MiniBatchSize被视为训练轨迹长度。

MiniBatchSize值必须小于或等于ExperienceHorizon价值。

夹因素限制每个策略的变化更新步骤中,指定为一个积极的标量不到1

熵损失重量,指定为一个标量值之间01。更高的熵减肥价值促进剂探索运用惩罚过于确定采取哪些行动。这样做可以帮助当地代理的最适条件。

梯度计算在训练时,一个附加的梯度分量计算最小化这个损失函数。有关更多信息,请参见熵损失

数字时代的演员和评论家网络从当前经验中学习,指定为一个正整数。

的优势值,估算方法指定为以下之一:

  • “gae”——广义优势估计量

  • “finite-horizon”——有限的地平线估计

关于这些方法的更多信息,请参见训练算法信息近端政策优化(PPO)代理

平滑系数估计量为广义优势,指定为一个标量值之间01、包容。该选项只适用于当AdvantageEstimateMethod选择是“gae”

方法规范优势函数值,指定为以下之一:

  • “没有”——不正常化优势值

  • “当前”——标准化优势函数使用的平均值和标准偏差为当前mini-batch经验。

  • “移动”——标准化优势函数使用一个移动窗口的平均值和标准偏差最近的经历。指定窗口大小,设置AdvantageNormalizingWindow选择。

在某些环境中,您可以通过规范改善剂性能优势函数在训练。代理可实现优势优势函数通过减去平均值和扩展的标准差。

窗口大小正常化优势函数值,指定为一个正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”

演员优化选项,指定为一个rlOptimizerOptions对象。它允许您指定学习速率等演员的训练参数的估计值,梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型万博1manbetx®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlPPOAgent 近端政策优化(PPO)强化学习代理

例子

全部折叠

创建一个PPO代理的选择对象,指定地平线的经验。

选择= rlPPOAgentOptions (ExperienceHorizon = 256)
选择= rlPPOAgentOptions属性:ExperienceHorizon: 256 MiniBatchSize: 128 ClipFactor: 0.2000 EntropyLossWeight: 0.0100 NumEpoch: 3 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 NormalizedAdvantageMethod:“没有一个”AdvantageNormalizingWindow: 1000000 ActorOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] CriticOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.5

opt.SampleTime = 0.5;

版本历史

介绍了R2019b

全部展开