rlPPOAgentOptions

PPO代理的选项

全部展开页面

描述

使用一个rlPPOAgentOptions对象指定策略优化（PPO）代理的选项。若要创建PPO代理，请使用rlPPOAgent

有关PPO代理的更多信息，请参阅近端政策优化代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlPPOAgentOptions

选择= rlPPOAgentOptions(名称、值)

描述

选择=rlPPOAgentOptions创建一个rlPPOAgentOptions对象，以在使用所有默认设置创建PPO代理时作为参数。可以使用点表示法修改对象属性。

例子

选择= rlPPOAgentOptions (名称,值）设置选项性质使用名称-值对。例如,rlPPOAgentOptions (DiscountFactor, 0.95)创建折扣系数为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`ExperienceHorizon`- - - - - -学习前agent与环境交互的步骤数
`512`(默认)|正整数

代理从环境中吸取经验之前与环境交互的步骤数，指定为正整数。

的ExperienceHorizon值必须大于或等于小批量价值。

`阴蒂因子`- - - - - -剪辑的因素
`0.2`(默认)|正标量小于`1`

用于限制每个策略更新步骤中的更改的剪辑因子，指定为小于的正标量1．

`EntropyLossWeight`- - - - - -熵损失权
`０．０１`(默认)|标量值之间`0`和`1`

熵损失权重，指定为之间的标量值0和1．较高的减重值会因过于确定该采取何种行动而受到惩罚，从而促进代理人探索。这样做可以帮助代理移出局部优化。

对于插曲步骤t，则熵损失函数为:

$H_{t} ＝ E \sum_{k ＝ 1}^{M} μ_{k} （ {年代}_{t} | θ_{μ} ）自然对数 μ_{k} （ {年代}_{t} | θ_{μ} ）$

在这里:

E是熵损失重量。
M是可能的行动的数量。
μ_k（年代_t|θ_μ)是采取行动的可能性一个_k在国家年代_t遵循现行政策。

当在训练过程中计算梯度时，将计算额外的梯度分量以使损失函数最小化。

`小批量`- - - - - -小批量
`128`(默认)|正整数

用于每个学习时期的小批量大小，指定为正整数。当代理使用递归神经网络时，小批量被视为训练轨迹长度。

的小批量值必须小于或等于ExperienceHorizon价值。

`NumEpoch`- - - - - -数量的时代
`3.`(默认)|正整数

行动者和评论家网络从当前经验集中学到的时代的数量，指定为正整数。

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“有限地平线”`

估算优势值的方法，具体如下：

“gae”-广义优势估计
“有限地平线”-有限地平估计

有关这些方法的更多信息，请参阅近端政策优化代理．

`GAEFactor`- - - - - -广义优势估计的平滑因子
`0.95`(默认)|标量值之间`0`和`1`

广义优势估计的平滑因子，指定为之间的标量值0和1、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`符合事实的`

选项返回操作，最大可能用于模拟和策略生成，指定为逻辑值。当UseDeterministicExploitation设置为符合事实的，具有最大可能性的动作通常用于sim卡和生成策略函数，这使代理的行为具有决定性。

什么时候UseDeterministicExploitation设置为假时，代理从概率分布中抽样行为，使代理表现为随机行为。

`SampleTime`- - - - - -试剂取样时间
`1`(默认)|积极的标量

代理的采样时间，指定为正标量。

在一个模型万博1manbetx^®环境中，代理被执行SampleTime秒的模拟时间。

在MATLAB中^®环境中，代理在环境每次前进时都会执行。但是，SampleTime是由返回的输出体验中连续元素之间的时间间隔sim卡或火车．

`DiscountFactor`- - - - - -贴现系数
`0.99`(默认)|小于等于1的正标量

用于培训期间未来奖励的贴现因子，指定为小于或等于1的正标量。

对象的功能

rlPPOAgent 近端策略优化强化学习代理

例子

全部折叠

创建PPO代理选项对象

打开实时脚本

创建PPO代理选项对象，指定体验范围。

opt=rlPPOAgentOptions(“体验地平线”, 256)

opt=rlppoagent属性选项：ExperienceHorizon:256 MiniBatchSize:128 ClipFactor:0.2000 EntropyLossWeight:0.0100 NumEpoch:3 Advantage估计方法：“gae”GAEFactor:0.9500 UseDeterministic剥削：0 SampleTime:1折扣因子：0.9900

您可以使用点符号修改选项。例如，将代理示例时间设置为0.5．

opt.SampleTime=0.5；

另请参阅

主题

近端政策优化代理

介绍了R2019b

rlPPOAgentOptions

描述

创建

语法

描述

属性

`ExperienceHorizon`- - - - - -学习前agent与环境交互的步骤数
`512`(默认)|正整数

`阴蒂因子`- - - - - -剪辑的因素
`0.2`(默认)|正标量小于`1`

`EntropyLossWeight`- - - - - -熵损失权
`０．０１`(默认)|标量值之间`0`和`1`

`小批量`- - - - - -小批量
`128`(默认)|正整数

`NumEpoch`- - - - - -数量的时代
`3.`(默认)|正整数

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“有限地平线”`

`GAEFactor`- - - - - -广义优势估计的平滑因子
`0.95`(默认)|标量值之间`0`和`1`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`符合事实的`

`SampleTime`- - - - - -试剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -贴现系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建PPO代理选项对象

另请参阅

主题

强化学习工具箱文档

万博1manbetx

强化学习与MATLAB和Simulink万博1manbetx

rlPPOAgentOptions

描述

创建

语法

描述

属性

ExperienceHorizon- - - - - -学习前agent与环境交互的步骤数512(默认)|正整数

阴蒂因子- - - - - -剪辑的因素0.2(默认)|正标量小于1

EntropyLossWeight- - - - - -熵损失权０．０１(默认)|标量值之间0和1

小批量- - - - - -小批量128(默认)|正整数

NumEpoch- - - - - -数量的时代3.(默认)|正整数

AdvantageEstimateMethod- - - - - -估算优势值的方法“gae”(默认)|“有限地平线”

GAEFactor- - - - - -广义优势估计的平滑因子0.95(默认)|标量值之间0和1

UseDeterministicExploitation- - - - - -使用最大可能性的动作假(默认)|符合事实的

SampleTime- - - - - -试剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -贴现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建PPO代理选项对象

另请参阅

主题

强化学习工具箱文档

万博1manbetx

强化学习与MATLAB和Simulink万博1manbetx

`ExperienceHorizon`- - - - - -学习前agent与环境交互的步骤数
`512`(默认)|正整数

`阴蒂因子`- - - - - -剪辑的因素
`0.2`(默认)|正标量小于`1`

`EntropyLossWeight`- - - - - -熵损失权
`０．０１`(默认)|标量值之间`0`和`1`

`小批量`- - - - - -小批量
`128`(默认)|正整数

`NumEpoch`- - - - - -数量的时代
`3.`(默认)|正整数

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“有限地平线”`

`GAEFactor`- - - - - -广义优势估计的平滑因子
`0.95`(默认)|标量值之间`0`和`1`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`符合事实的`

`SampleTime`- - - - - -试剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -贴现系数
`0.99`(默认)|小于等于1的正标量