rlPPOAgentOptions

选择PPO代理

自从R2019b

扩展所有的页面

描述

使用一个rlPPOAgentOptions对象为近端指定选项政策优化(PPO)代理。创建一个PPO代理,使用rlPPOAgent。

PPO代理的更多信息,请参阅近端政策优化(PPO)代理。

更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

选择= rlPPOAgentOptions

选择= rlPPOAgentOptions(名称、值)

描述

选择= rlPPOAgentOptions创建一个rlPPOAgentOptions对象用于创建PPO代理时作为参数使用默认设置。您可以修改对象属性使用点符号。

例子

选择= rlPPOAgentOptions (名称,值)设置选项属性使用名称-值参数。例如,rlPPOAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称参数。在报价附上每个属性的名字。

属性

全部展开

`ExperienceHorizon`- - - - - -受托人与环境交互的步骤之前学习
`512年`(默认)|正整数

受托人与环境交互的步骤之前,学习其经验,指定为一个正整数。当代理并行训练,ExperienceHorizon被忽略,整个事件是用来计算梯度。

的ExperienceHorizon值必须大于或等于MiniBatchSize价值。

`MiniBatchSize`- - - - - -Mini-batch大小
`128年`(默认)|正整数

Mini-batch大小用于每个学习时代,指定为一个正整数。当代理使用递归神经网络,MiniBatchSize被视为训练轨迹长度。

的MiniBatchSize值必须小于或等于ExperienceHorizon价值。

`ClipFactor`- - - - - -剪辑的因素
`0.2`(默认)|积极的标量不到`1`

夹因素限制每个策略的变化更新步骤中,指定为一个积极的标量不到1。

`EntropyLossWeight`- - - - - -熵减肥
`0.01`(默认)|标量值之间`0`和`1`

熵损失重量,指定为一个标量值之间0和1。更高的熵减肥价值促进剂探索运用惩罚过于确定采取哪些行动。这样做可以帮助当地代理的最适条件。

梯度计算在训练时,一个附加的梯度分量计算最小化这个损失函数。有关更多信息,请参见熵损失。

`NumEpoch`- - - - - -数量的时代
`3`(默认)|正整数

数字时代的演员和评论家网络从当前经验中学习,指定为一个正整数。

`AdvantageEstimateMethod`- - - - - -估计方法利用价值
`“gae”`(默认)|`“finite-horizon”`

的优势值,估算方法指定为以下之一:

“gae”——广义优势估计量
“finite-horizon”——有限的地平线估计

关于这些方法的更多信息,请参见训练算法信息近端政策优化(PPO)代理。

`GAEFactor`- - - - - -平滑系数估计量为广义的优势
`0.95`(默认)|标量值之间`0`和`1`

平滑系数估计量为广义优势,指定为一个标量值之间0和1、包容。该选项只适用于当AdvantageEstimateMethod选择是“gae”

`NormalizedAdvantageMethod`- - - - - -方法优势功能正常化
`“没有”`(默认)|`“当前`|`“移动”`

方法规范优势函数值,指定为以下之一:

“没有”——不正常化优势值
“当前”——标准化优势函数使用的平均值和标准偏差为当前mini-batch经验。
“移动”——标准化优势函数使用一个移动窗口的平均值和标准偏差最近的经历。指定窗口大小,设置AdvantageNormalizingWindow选择。

在某些环境中,您可以通过规范改善剂性能优势函数在训练。代理可实现优势优势函数通过减去平均值和扩展的标准差。

`AdvantageNormalizingWindow`- - - - - -窗口大小为优势功能正常化
`1 e6`(默认)|正整数

窗口大小正常化优势函数值,指定为一个正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”。

`ActorOptimizerOptions`- - - - - -演员优化器选择
`rlOptimizerOptions`对象

演员优化选项,指定为一个rlOptimizerOptions对象。它允许您指定学习速率等演员的训练参数的估计值,梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptions和rlOptimizer。

`CriticOptimizerOptions`- - - - - -评论家优化器选择
`rlOptimizerOptions`对象

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptions和rlOptimizer。

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量|`1`

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型万博1manbetx^®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime是1块继承了样本时间从母公司子系统。

在MATLAB^®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡或火车。如果SampleTime是1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlPPOAgent 近端政策优化(PPO)强化学习代理

例子

全部折叠

创建PPO代理的选择对象

打开生活的脚本

创建一个PPO代理的选择对象,指定地平线的经验。

选择= rlPPOAgentOptions (ExperienceHorizon = 256)

选择= rlPPOAgentOptions属性:ExperienceHorizon: 256 MiniBatchSize: 128 ClipFactor: 0.2000 EntropyLossWeight: 0.0100 NumEpoch: 3 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 NormalizedAdvantageMethod:“没有一个”AdvantageNormalizingWindow: 1000000 ActorOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] CriticOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.5。

opt.SampleTime = 0.5;

版本历史

介绍了R2019b

全部展开

R2022a:仿真和部署:`UseDeterministicExploitation`将被删除

房地产UseDeterministicExploitation的rlPPOAgentOptions对象将被删除在将来的版本中。使用UseExplorationPolicy的属性rlPPOAgent代替。

以前,你UseDeterministicExploitation如下。

力代理总是选择最大似然的行动,从而使用贪婪的确定性的政策模拟和部署。
```
agent.AgentOptions。UseDeterministicExploitation = true;
```
允许代理选择其行动抽样概率分布仿真和政策部署,从而使用随机策略,探讨了观测空间。
```
agent.AgentOptions。UseDeterministicExploitation = false;
```

从R2022a开始,集UseExplorationPolicy如下。

力代理总是选择最大似然的行动,从而使用贪婪的确定性的政策模拟和部署。
```
代理。UseExplorationPolicy = false;
```
允许代理选择其行动抽样概率分布仿真和政策部署,从而使用随机策略,探讨了观测空间。
```
代理。UseExplorationPolicy = true;
```

类似于UseDeterministicExploitation,UseExplorationPolicy只会影响仿真和部署;它不影响训练。

另请参阅

对象

rlPPOAgent|rlAgentInitializationOptions

rlPPOAgentOptions

描述

创建

语法

描述

属性

ExperienceHorizon- - - - - -受托人与环境交互的步骤之前学习512年(默认)|正整数

MiniBatchSize- - - - - -Mini-batch大小128年(默认)|正整数

ClipFactor- - - - - -剪辑的因素0.2(默认)|积极的标量不到1

EntropyLossWeight- - - - - -熵减肥0.01(默认)|标量值之间0和1

NumEpoch- - - - - -数量的时代3(默认)|正整数

AdvantageEstimateMethod- - - - - -估计方法利用价值“gae”(默认)|“finite-horizon”

GAEFactor- - - - - -平滑系数估计量为广义的优势0.95(默认)|标量值之间0和1

NormalizedAdvantageMethod- - - - - -方法优势功能正常化“没有”(默认)|“当前|“移动”

AdvantageNormalizingWindow- - - - - -窗口大小为优势功能正常化1 e6(默认)|正整数

ActorOptimizerOptions- - - - - -演员优化器选择rlOptimizerOptions对象

CriticOptimizerOptions- - - - - -评论家优化器选择rlOptimizerOptions对象

SampleTime- - - - - -样本的代理1(默认)|积极的标量|1

DiscountFactor- - - - - -折现系数0.99(默认)|积极的标量小于或等于1