文档帮助中心文档
PPO代理的选项
使用一个rlPPOAgentOptions对象指定策略优化(PPO)代理的选项。若要创建PPO代理,请使用rlPPOAgent
rlPPOAgentOptions
rlPPOAgent
有关PPO代理的更多信息,请参阅近端政策优化代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
选择= rlPPOAgentOptions
选择= rlPPOAgentOptions(名称、值)
选择=rlPPOAgentOptions创建一个rlPPOAgentOptions对象,以在使用所有默认设置创建PPO代理时作为参数。可以使用点表示法修改对象属性。
选择=rlPPOAgentOptions
选择
例子
选择= rlPPOAgentOptions (名称,值)设置选项性质使用名称-值对。例如,rlPPOAgentOptions (DiscountFactor, 0.95)创建折扣系数为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。
选择= rlPPOAgentOptions (名称,值)
名称,值
rlPPOAgentOptions (DiscountFactor, 0.95)
0.95
全部展开
ExperienceHorizon
512
代理从环境中吸取经验之前与环境交互的步骤数,指定为正整数。
的ExperienceHorizon值必须大于或等于小批量价值。
小批量
阴蒂因子
0.2
1
用于限制每个策略更新步骤中的更改的剪辑因子,指定为小于的正标量1.
EntropyLossWeight
0.01
0
熵损失权重,指定为之间的标量值0和1.较高的减重值会因过于确定该采取何种行动而受到惩罚,从而促进代理人探索。这样做可以帮助代理移出局部优化。
对于插曲步骤t,则熵损失函数为:
H t = E ∑ k = 1 M μ k ( 年代 t | θ μ ) 自然对数 μ k ( 年代 t | θ μ )
在这里:
E是熵损失重量。
M是可能的行动的数量。
μk(年代t|θμ)是采取行动的可能性一个k在国家年代t遵循现行政策。
当在训练过程中计算梯度时,将计算额外的梯度分量以使损失函数最小化。
128
用于每个学习时期的小批量大小,指定为正整数。当代理使用递归神经网络时,小批量被视为训练轨迹长度。
的小批量值必须小于或等于ExperienceHorizon价值。
NumEpoch
3.
行动者和评论家网络从当前经验集中学到的时代的数量,指定为正整数。
AdvantageEstimateMethod
“gae”
“有限地平线”
估算优势值的方法,具体如下:
“gae”-广义优势估计
“有限地平线”-有限地平估计
有关这些方法的更多信息,请参阅近端政策优化代理.
GAEFactor
广义优势估计的平滑因子,指定为之间的标量值0和1、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”
UseDeterministicExploitation
假
符合事实的
选项返回操作,最大可能用于模拟和策略生成,指定为逻辑值。当UseDeterministicExploitation设置为符合事实的,具有最大可能性的动作通常用于sim卡和生成策略函数,这使代理的行为具有决定性。
sim卡
生成策略函数
什么时候UseDeterministicExploitation设置为假时,代理从概率分布中抽样行为,使代理表现为随机行为。
SampleTime
代理的采样时间,指定为正标量。
在一个模型万博1manbetx®环境中,代理被执行SampleTime秒的模拟时间。
在MATLAB中®环境中,代理在环境每次前进时都会执行。但是,SampleTime是由返回的输出体验中连续元素之间的时间间隔sim卡或火车.
火车
DiscountFactor
0.99
用于培训期间未来奖励的贴现因子,指定为小于或等于1的正标量。
全部折叠
创建PPO代理选项对象,指定体验范围。
opt=rlPPOAgentOptions(“体验地平线”, 256)
opt=rlppoagent属性选项:ExperienceHorizon:256 MiniBatchSize:128 ClipFactor:0.2000 EntropyLossWeight:0.0100 NumEpoch:3 Advantage估计方法:“gae”GAEFactor:0.9500 UseDeterministic剥削:0 SampleTime:1折扣因子:0.9900
您可以使用点符号修改选项。例如,将代理示例时间设置为0.5.
0.5
opt.SampleTime=0.5;
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系