策略梯度强化学习代理
策略梯度(PG)算法是一种无模型的、在线的、基于策略的强化学习方法。PG代理是一种基于策略的强化学习代理,它直接计算出长期回报最大化的最优策略。
有关PG代理的详细信息,请参阅政策梯度代理。
对于学习代理不同类型的增强的详细信息,请参阅强化学习代理。
创建具有指定演员网络PG剂。默认情况下,代理人
= rlPGAgent(演员
)UseBaseline
该试剂的属性是假
在这种情况下。
创建一个PG剂,并设置代理人
= rlPGAgent(___,agentOptions
)AgentOptions
属性。