深度确定性政策梯度加固学习代理
深度确定性政策梯度(DDPG)算法是一个演员 - 评论家,无模型,在线,禁止策略加强学习方法,这些禁止措施方法计算了最大化长期奖励的最佳政策。动作空间只能是连续的。
有关更多信息,请参阅深度确定性政策梯度代理。有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人。
使用默认初始化选项创建具有给定观察和操作规范的环境的深度确定性策略梯度代理。代理商中的演员和批评者表示从观察规范内建造的默认深神经网络代理人
= rlddpgagent(观察税收
那ActionInfo.
)观察税收
和行动规范ActionInfo.
。
为具有给定观察和动作规范的环境创建一个深度确定的政策梯度代理。代理使用使用指定的选项配置的默认网络代理人
= rlddpgagent(观察税收
那ActionInfo.
那初学者
)初学者
目的。有关初始化选项的详细信息,请参阅rlagentinitializationOptions.
。
创建一个ddpg代理并设置代理人
= rlddpgagent(___那代理选项
)代理选项
财产到代理选项
输入参数。在上一个语法中的任何输入参数后使用此语法。
火车 |
在指定环境中列车加固学习代理 |
SIM |
在指定环境中模拟培训的钢筋学习代理 |
努力 |
从代理商或演员代表获取行动给定环境观察 |
工作者 |
获取钢筋学习代理人的演员代表 |
setActor. |
设置钢筋学习代理的演员代表 |
透镜 |
获取钢筋学习代理人的批评奖学金 |
setcritic. |
设定批评批评学习代理的代表 |
生成policyfunction. |
创建评估培训的强化学习代理策略的功能 |
深网络设计师|rlagentinitializationOptions.
|rlddpgagentoptions.
|RLDETerminyActorRepresentation
|rlqvalueerepresentation