行动者-批评家强化学习代理
行为者-批评(AC)代理实现行为者-批评算法,如A2C和A3C,这是无模型的、在线的、基于政策的强化学习方法。行动者-评论家代理直接优化策略(行动者),并使用评论家来估计回报或未来的回报。动作空间可以是离散的,也可以是连续的。
有关详细信息,请参阅Actor-Critic代理。有关不同类型强化学习代理的更多信息,请参阅强化学习代理.
为具有给定观察和操作规范的环境创建参与者-评论家代理。代理使用默认网络,其中每个隐藏的完全连接层都具有在中指定的单元数代理人
= rlACAgent (观测信息
,行动信息
,初始选项
)初始选项
对象。行动者-评论家代理不支持递归神经网络。万博1manbetx有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
对于连续的动作空间,拉卡金特
对象不强制执行动作规范设置的约束,因此必须在环境中强制执行动作空间约束。