双延迟深层确定性策略梯度强化学习agent
双延迟深度确定性策略梯度(DDPG)算法是一种行为者-批评、无模型、在线、非策略强化学习方法,计算出长期奖励最大化的最优策略。动作空间只能是连续的。
使用RLTD3试剂
创建下列代理类型之一。
具有两个Q值函数的双延迟深层确定性策略梯度(TD3)代理。该代理通过学习两个Q值函数并使用策略更新的最小值来防止对值函数的高估。
具有单一Q值函数的延迟深度确定性策略梯度(Delayed deep deterministic policy gradient, dpg)代理。该代理是一个具有目标策略平滑、延迟策略和目标更新的DDPG代理。
有关详细信息,请参阅双延迟深度确定性策略梯度代理. 有关不同类型的强化学习代理的更多信息,请参阅强化学习代理.
为具有给定观察和操作规范的环境创建深度确定性策略梯度代理。该代理使用使用中指定的选项配置的默认网络代理人
=rlTD3Agent(观测信息
,行动信息
,初始选项
)初始选项
对象。有关初始化选项的更多信息,请参见rlagentinizationoptions
.
创建TD3代理并设置代理人
=rlTD3Agent(___,agentOptions
)代理
财产agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。