近端策略优化强化学习代理
近端策略优化(PPO)是一种无模型、在线、基于策略、策略梯度强化学习方法。该算法交替使用环境交互采样数据和使用随机梯度下降优化裁剪代理目标函数。行动空间可以是离散的,也可以是连续的。
为具有给定观察和操作规范的环境创建PPO代理。该代理使用使用中指定的选项配置的默认网络代理人
=rlPPOAgent(观测信息
,行动信息
,初始选项
)初始选项
对象。行动者-评论家代理不支持递归神经网络。万博1manbetx有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
对于连续操作空间,该代理不会强制操作规范设置的约束。在这种情况下,您必须在环境中强制操作空间约束。