主要内容

rldqnagentoptions.

DQN代理的选项

描述

用A.rldqnagentoptions.对象以指定Deep Q-Network(DQN)代理的选项。要创建DQN代理,请使用rldqnagent.

有关更多信息,请参阅深度Q-Network代理商

有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人

创建

描述

选择= RLDQNAGENTOPTIONS.使用所有默认设置创建DQN代理时,会创建用作参数的选项对象。您可以使用点表示法修改对象属性。

例子

选择= RLDQNAGENTOPTIONS(名称,价值设置选项属性使用名称值对。例如,RLDQNAGENTOPTIONS('贴花因子',0.95)创建一个选项设置,折扣系数0.95。您可以指定多个名称值对。将每个属性名称括在引号中。

特性

展开全部

用于使用Double DQN的标志,用于值函数目标更新,指定为逻辑值。对于大多数应用程序集unmorlebledqn“上”。有关更多信息,请参阅深度Q-Network代理商

epsilon-greedy探索的选项,指定为一个epsilongredyexpliation.对象具有以下属性。

财产 描述 默认值
埃斯利昂 随机选择一个动作或选择最大化状态动作值函数的动作的概率阈值。更大的价值埃斯利昂意味着代理程序以更高的速率随机探索动作空间。 1
epsilonmin 最小值埃斯利昂 0.01
epsilondecay 衰减率 0.0050.

在每个训练时间步骤结束时,如果埃斯利昂大于epsilonmin,然后使用以下公式更新它。

epsilon = epsilon *(1-epsilondecay)

如果您的代理商在当地的Optima上收敛太快,您可以通过增加来推广代理商探索埃斯利昂

要指定探索选项,请在创建后使用点表示法rldqnagentoptions.目的选择。例如,将epsilon值设置为0.9

opt.epsilongredyexpliation.epsilon = 0.9;

使用经常性神经网络的最高批量训练轨迹长度为评论家指定为正整数。该值必须大于1在为评论家使用经常性神经网络时1除此以外。

目标批评更新的平滑因子,指定为小于或等于的正标量。有关更多信息,请参阅目标更新方法

目标批读更新之间的步数,指定为正整数。有关更多信息,请参阅目标更新方法

选择在培训前清除体验缓冲区的选项,指定为逻辑值。

保存代理时保存体验缓冲区数据的选项,指定为逻辑值。在培训期间保存候选代理以及使用时,此选项均适用保存功能。

对于某些代理,例如具有大经验缓冲区和基于图像的观察的代理,节省其体验缓冲区所需的内存大。在这种情况下,不保存体验缓冲区数据,设置SaveexperienceBufferWithAgent.错误的

如果您计划进一步培训您所保存的代理,您可以从以前的经验缓冲区作为一个起点开始培训。在这种情况下,设置SaveexperienceBufferWithAgent.真的

随机体验迷你批次的大小,指定为正整数。在每次训练期间,代理在计算渐变时随机随机采样从体验缓冲区的体验,以更新批评属性。大型批次在计算梯度时减少方差,但增加计算工作。

在使用反批评的经常性神经网络时,小匹匹匹匹配是批量中的经验轨迹的数量,每个轨迹都有等于的长度Sequencelength.

用于估算策略值的未来奖励的数量,指定为正整数。有关更多信息,请参阅[1]的第7章。

使用反复性神经网络以获得评论家的批评时不支持N-S万博1manbetxtep Q学习。在这种情况下,numstepstolookahead.一定是1

经验缓冲区大小,指定为正整数。在培训期间,代理使用从缓冲区随机采样的迷你批次体验计算更新。

代理的采样时间,指定为正标量。

在Simulink万博1manbetx中®环境,代理商每次执行采样时间模拟时间秒。

在MATLAB®环境,每当环境进步时,代理就会执行。然而,采样时间输出经验中连续元素之间的时间间隔是否由SIM或者火车

在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。

对象功能

rldqnagent. 深度Q网加固学习代理

例子

全部收缩

此示例显示如何创建DQN代理选项对象。

创建一个rldqnagentoptions.指定代理迷你批处理大小的对象。

opt = rldqnagentoptions('minibatchsize',48)
Opt =具有属性的RLDQNAGENTOPTIONS:unmerlowetqn:1 epsilongredyexpliation:[1x1 rl.option.epsilongredyexpliation] targetsmoothfactor:0.9900

您可以使用点表示法修改选项。例如,将代理采样时间设置为0.5

opt.sampletime = 0.5;

兼容性考虑因素

展开全部

R2020A中的行为发生了变化

参考文献

[1] Sutton,Richard S.和Andrew G. Barto。强化学习:介绍。第二版。自适应计算与机器学习。剑桥,质量:2018年的麻省理工学院新闻。

也可以看看

在R2019A介绍