策略梯度强化学习代理
策略梯度(PG)算法是一种无模型、在线、基于策略的强化学习方法。PG智能体是一种基于策略的强化学习智能体,它直接计算出使长期收益最大化的最优策略。动作空间可以是离散的,也可以是连续的。
为具有给定观察和操作规范的环境创建策略梯度代理。该代理使用默认网络,其中每个隐藏的完全连接层都有在代理人
=rlPGAgent(观测信息
,行动信息
,初始选项
)初始选项
对象。策略梯度代理不支持递归神经网络。万博1manbetx有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
使用指定的参与者网络创建PG代理。默认情况下代理人
=rlPGAgent(演员
)UseBaseline
代理人的财产为:错误的
在这种情况下。
对于连续动作空间rlPGAgent
代理不强制执行操作规范设置的约束,因此必须在环境中强制执行操作空间约束。
深度网络设计器|rlAgentInitializationOptions
|rlPGAgentOptions
|rlStochasticActorRepresentation
|rlValueRepresentation