双延迟深度确定性政策梯度加固学习代理
双延迟深度确定性政策梯度(DDPG)算法是演员 - 评论家,无模型,在线,脱助策略加强学习方法,这些禁止措施方法计算了最佳策略,最大化了长期奖励。动作空间只能是连续的。
使用rlTD3Agent
创建以下类型的代理。
双延迟深度确定性策略梯度(TD3)代理,具有两个Q值函数。该代理通过学习两个Q值函数并使用策略更新的最小值来防止value函数的高估。
延迟了具有单个Q值函数的深度确定性策略梯度(延迟DDPG)代理。此代理是一个DDPG代理,具有目标策略平滑和延迟策略和目标更新。
有关更多信息,请参阅双延迟深度确定性政策梯度代理.有关不同类型的强化学习代理商的更多信息,请参阅强化学习代理.
使用默认初始化选项创建具有给定观察和操作规范的环境的TD3代理。代理商中的演员和批评者表示从观察规范内建造的默认深神经网络代理人
= rlTD3Agent (observationInfo
那actionInfo
)observationInfo
以及动作规范actionInfo
.
为具有给定观察和动作规范的环境创建一个深度确定的政策梯度代理。代理使用使用指定的选项配置的默认网络代理人
= rlTD3Agent (observationInfo
那actionInfo
那初学者
)初学者
对象。有关初始化选项的详细信息,请参阅rlAgentInitializationOptions
.
创建TD3代理并设置代理人
= rlTD3Agent (___那代理选项
)代理选项
财产到代理选项
输入参数。在前面语法中的任何输入参数之后使用此语法。
火车 |
在指定环境中列车加固学习代理 |
SIM |
在指定的环境中模拟训练过的强化学习代理 |
getAction |
从代理商或演员代表获取行动给定环境观察 |
工作者 |
获取钢筋学习代理人的演员代表 |
setActor. |
设置强化学习主体的主体表示 |
透镜 |
从强化学习代理获得批判表示 |
setcritic. |
集合强化学习代理的批判表示 |
generatePolicyFunction |
创建评估培训的强化学习代理策略的功能 |
深网络设计师|rlAgentInitializationOptions
|RLDETerminyActorRepresentation
|rlQValueRepresentation
|rltd3agentoptions.