软演员 - 评论家强化学习代理
软演员 - 评论家(SAC)算法是一种无型号,在线,违规政策演员 - 批评批评学习方法。SAC算法计算了最佳策略,最大化了长期预期奖励和策略的熵。政策熵是鉴于国家的政策不确定性的衡量标准。更高的熵值促进了更多的探索。最大化奖励和熵余额的探索和利用环境。动作空间只能是连续的。
有关更多信息,请参阅软Actor-Critic代理。
有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人。
使用默认初始化选项,为具有给定观察和操作规范的环境创建一个SAC代理。代理中的行动者和评论家表示使用使用观察规范建立的默认深度神经网络代理人
= rlsacagent(观察税收
,ActionInfo.
)观察税收
和行为规范ActionInfo.
。
使用指定的初始化选项(代理人
= rlsacagent(观察税收
,ActionInfo.
,initoptions.
)initoptions.
)。
设置代理选项属性用于以前的任何语法。代理人
= rlsacagent(___,agentOptions
)
深网络设计师|rlagentinitializationOptions.
|rlSACAgentOptions
|rlstochastorrepresentation
|rlvalueerepresentation