文档帮助中心
AC代理的选择
使用一个rlACAgentOptions对象,以指定用于创建actor-批评家(AC)代理的选项。要创建一个actor-批评家代理,使用rlACAgent
rlACAgentOptions
rlACAgent
有关更多信息,请参见Actor-Critic代理。
有关不同类型的强化学习代理的更多信息,请参见强化学习代理。
选择= rlACAgentOptions
选择= rlACAgentOptions(名称、值)
选择= rlACAgentOptions为AC代理创建一个默认选项集。可以使用点符号修改对象属性。
选择
例子
选择= rlACAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个折扣因子为的选项集0.95。可以指定多个名称-值对。将每个属性名括在引号中。
选择= rlACAgentOptions (名称,值)
名称,值
rlDQNAgentOptions (DiscountFactor, 0.95)
0.95
全部展开
NumStepsToLookAhead
1
在模型训练中向前看的步骤数,指定为正整数。对于AC agent,前瞻的步数与训练的集长相对应。
EntropyLossWeight
0
熵损失权值,指定为之间的一个标量值0和1、包容。较高的减重值通过对采取何种行动过于确定而施加惩罚来促进代理的探索。这样做可以帮助代理移出局部optima。
插曲步的熵损失函数t是:
H t = E • k = 1 米 μ k ( 年代 t | θ μ ) ln μ k ( 年代 t | θ μ )
在这里:
E是熵损失的重量。
米是可能的操作数。
μk(年代t)是采取行动的概率一个k在国家年代t遵循现行政策。
在训练过程中,当梯度被计算时,一个附加的梯度分量被计算来最小化这个损失函数。
SampleTime
代理的样本时间,指定为正的标量。
DiscountFactor
0.99
在训练期间应用于未来奖励的折扣因子,指定为小于或等于1的正标量。
全部折叠
创建一个AC代理选项对象,指定折扣因子。
选择= rlACAgentOptions (“DiscountFactor”,0.95)
opt = rlACAgentOptions,其属性为:NumStepsToLookAhead: 1 EntropyLossWeight: 0 SampleTime: 1 DiscountFactor: 0.9500
可以使用点符号修改选项。例如,将代理示例时间设置为0.5。
0.5
opt.SampleTime = 0.5;
您的系统中存在此示例的修改版本。你想打开这个版本吗?
你点击了一个链接,对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入该命令来运行它。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站来获取可用的翻译内容,并查看本地事件和报价。根据你的位置,我们建议你选择:。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文),以获得最佳的网站表现。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系你当地的办公室
得到审判现在