rldqnagentoptions.

DQN代理的选项

展开所有页面

描述

用A.rldqnagentoptions.对象以指定Deep Q-Network（DQN）代理的选项。要创建DQN代理，请使用rldqnagent.。

有关更多信息，请参阅深度Q-Network代理商。

有关不同类型的强化学习代理商的更多信息，请参阅加固学习代理人。

创建

句法

选择= rldqnagentoptions.

opt = rldqnagentoptions（名称，值）

描述

选择= RLDQNAGENTOPTIONS.使用所有默认设置创建DQN代理时，会创建用作参数的选项对象。您可以使用点表示法修改对象属性。

例子

选择= RLDQNAGENTOPTIONS（名称，价值）设置选项属性使用名称值对。例如，RLDQNAGENTOPTIONS（'贴花因子'，0.95）创建一个选项设置，折扣系数0.95。您可以指定多个名称值对。将每个属性名称括在引号中。

特性

展开全部

`unmorlebledqn`-使用双DQN的标志
真的（默认）|错误的

用于使用Double DQN的标志，用于值函数目标更新，指定为逻辑值。对于大多数应用程序集unmorlebledqn至“上”。有关更多信息，请参阅深度Q-Network代理商。

`epsilongredyexpliation.`-epsilon贪婪探索的选择
`epsilongredyexpliation.`目的

epsilon-greedy探索的选项，指定为一个epsilongredyexpliation.对象具有以下属性。

财产	描述	默认值
`埃斯利昂`	随机选择一个动作或选择最大化状态动作值函数的动作的概率阈值。更大的价值`埃斯利昂`意味着代理程序以更高的速率随机探索动作空间。	`1`
`epsilonmin`	最小值`埃斯利昂`	`0.01`
`epsilondecay`	衰减率	`0.0050.`

在每个训练时间步骤结束时，如果埃斯利昂大于epsilonmin，然后使用以下公式更新它。

epsilon = epsilon *（1-epsilondecay）

如果您的代理商在当地的Optima上收敛太快，您可以通过增加来推广代理商探索埃斯利昂。

要指定探索选项，请在创建后使用点表示法rldqnagentoptions.目的选择。例如，将epsilon值设置为0.9。

opt.epsilongredyexpliation.epsilon = 0.9;

`Sequencelength.`-使用RNN时的最大批量训练轨迹长度
`1`（默认）|正整数

使用经常性神经网络的最高批量训练轨迹长度为评论家指定为正整数。该值必须大于1在为评论家使用经常性神经网络时1除此以外。

`targetsmoothfactor.`-目标批评更新的平滑因素
`1E-3`（默认）|正标量小于或等于1

目标批评更新的平滑因子，指定为小于或等于的正标量。有关更多信息，请参阅目标更新方法。

`TargetupdateFrequency.`-目标批评更新之间的步数
`1`（默认）|正整数

目标批读更新之间的步数，指定为正整数。有关更多信息，请参阅目标更新方法。

`resetExperienceBufferBeforring.`-清除体验缓冲区的选项
`真的`（默认）|`错误的`

选择在培训前清除体验缓冲区的选项，指定为逻辑值。

`SaveexperienceBufferWithAgent.`-保存体验缓冲区的选项
`错误的`（默认）|`真的`

保存代理时保存体验缓冲区数据的选项，指定为逻辑值。在培训期间保存候选代理以及使用时，此选项均适用保存功能。

对于某些代理，例如具有大经验缓冲区和基于图像的观察的代理，节省其体验缓冲区所需的内存大。在这种情况下，不保存体验缓冲区数据，设置SaveexperienceBufferWithAgent.至错误的。

如果您计划进一步培训您所保存的代理，您可以从以前的经验缓冲区作为一个起点开始培训。在这种情况下，设置SaveexperienceBufferWithAgent.至真的。

`小匹匹匹匹配`-随机体验的大小迷你批量
`64.`（默认）|正整数

随机体验迷你批次的大小，指定为正整数。在每次训练期间，代理在计算渐变时随机随机采样从体验缓冲区的体验，以更新批评属性。大型批次在计算梯度时减少方差，但增加计算工作。

在使用反批评的经常性神经网络时，小匹匹匹匹配是批量中的经验轨迹的数量，每个轨迹都有等于的长度Sequencelength.。

`numstepstolookahead.`-用于估计政策价值的未来奖励数量
`1`（默认）|正整数

用于估算策略值的未来奖励的数量，指定为正整数。有关更多信息，请参阅[1]的第7章。

使用反复性神经网络以获得评论家的批评时不支持N-S万博1manbetxtep Q学习。在这种情况下，numstepstolookahead.一定是1。

`经验性经验BufferLength.`-体验缓冲区大小
`10000`（默认）|正整数

经验缓冲区大小，指定为正整数。在培训期间，代理使用从缓冲区随机采样的迷你批次体验计算更新。

`采样时间`-代理的采样时间
`1`（默认）|正标量

代理的采样时间，指定为正标量。

在Simulink万博1manbetx中^®环境，代理商每次执行采样时间模拟时间秒。

在MATLAB^®环境，每当环境进步时，代理就会执行。然而,采样时间输出经验中连续元素之间的时间间隔是否由SIM或者火车。

`贴纸物`-折扣系数
`0.99`（默认）|正标量小于或等于1

在培训期间应用于未来奖励的折扣因素，指定为小于或等于1的正标量。

对象功能

rldqnagent. 深度Q网加固学习代理

例子

全部收缩

创建DQN代理选项对象

打开直播脚本

此示例显示如何创建DQN代理选项对象。

创建一个rldqnagentoptions.指定代理迷你批处理大小的对象。

opt = rldqnagentoptions（'minibatchsize'，48）

Opt =具有属性的RLDQNAGENTOPTIONS：unmerlowetqn：1 epsilongredyexpliation：[1x1 rl.option.epsilongredyexpliation] targetsmoothfactor：0.9900

您可以使用点表示法修改选项。例如，将代理采样时间设置为0.5。

opt.sampletime = 0.5;

兼容性考虑因素

展开全部

DQN代理的目标更新方法设置已更改

R2020A中的行为发生了变化

DQN代理的目标更新方法设置已更改。以下更改需要更新代码：

这targetupdatemethod.选项已被删除。现在，DQN代理确定了基于的目标更新方法TargetupdateFrequency.和targetsmoothfactor.选项值。
默认值TargetupdateFrequency.已经改变了4.至1。

要使用以下目标更新方法之一，请设置TargetupdateFrequency.和targetsmoothfactor.所示的属性。

更新方法	`TargetupdateFrequency.`	`targetsmoothfactor.`
平滑	`1`	少于`1`
定期	比...更棒`1`	`1`
定期平滑（R2020A中的新方法）	比...更棒`1`	少于`1`

默认的目标更新配置，这是一个平滑的更新targetsmoothfactor.的价值0.001，保持原样。

更新代码

该表显示了一些典型的用途rldqnagentoptions.以及如何更新代码以使用新的选项配置。

不建议	受到推崇的
选择= rlDQNAgentOptions(“TargetUpdateMethod”、“平滑”);	选择= rldqnagentoptions;
opt = rldqnagentoptions（'targetupdatemethod'，“定期”）;	选择= rldqnagentoptions;opt.targetupdateFrequency = 4;opt.targetSmoothFactor = 1;
选择= rldqnagentoptions;opt.targetupdatemethod =“定期”;opt.targetupdatefrequency = 5;	选择= rldqnagentoptions;opt.targetupdatefrequency = 5;opt.targetSmoothFactor = 1;

不建议

受到推崇的

选择= rlDQNAgentOptions(“TargetUpdateMethod”、“平滑”);

选择= rldqnagentoptions;

opt = rldqnagentoptions（'targetupdatemethod'，“定期”）;

选择= rldqnagentoptions;opt.targetupdateFrequency = 4;opt.targetSmoothFactor = 1;

选择= rldqnagentoptions;opt.targetupdatemethod =“定期”;opt.targetupdatefrequency = 5;

选择= rldqnagentoptions;opt.targetupdatefrequency = 5;opt.targetSmoothFactor = 1;

参考文献

[1] Sutton，Richard S.和Andrew G. Barto。强化学习：介绍。第二版。自适应计算与机器学习。剑桥，质量：2018年的麻省理工学院新闻。

也可以看看

话题

深度Q-Network代理商

在R2019A介绍

rldqnagentoptions.

描述

创建

句法

描述

特性

`unmorlebledqn`-使用双DQN的标志
真的（默认）|错误的

`epsilongredyexpliation.`-epsilon贪婪探索的选择
`epsilongredyexpliation.`目的

`Sequencelength.`-使用RNN时的最大批量训练轨迹长度
`1`（默认）|正整数

`targetsmoothfactor.`-目标批评更新的平滑因素
`1E-3`（默认）|正标量小于或等于1

`TargetupdateFrequency.`-目标批评更新之间的步数
`1`（默认）|正整数

`resetExperienceBufferBeforring.`-清除体验缓冲区的选项
`真的`（默认）|`错误的`

`SaveexperienceBufferWithAgent.`-保存体验缓冲区的选项
`错误的`（默认）|`真的`

`小匹匹匹匹配`-随机体验的大小迷你批量
`64.`（默认）|正整数

`numstepstolookahead.`-用于估计政策价值的未来奖励数量
`1`（默认）|正整数

`经验性经验BufferLength.`-体验缓冲区大小
`10000`（默认）|正整数

`采样时间`-代理的采样时间
`1`（默认）|正标量

`贴纸物`-折扣系数
`0.99`（默认）|正标量小于或等于1

对象功能

例子

创建DQN代理选项对象

兼容性考虑因素

DQN代理的目标更新方法设置已更改

参考文献

也可以看看

话题

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

rldqnagentoptions.

描述

创建

句法

描述

特性

unmorlebledqn-使用双DQN的标志真的（默认）|错误的

epsilongredyexpliation.-epsilon贪婪探索的选择epsilongredyexpliation.目的

Sequencelength.-使用RNN时的最大批量训练轨迹长度1（默认）|正整数

targetsmoothfactor.-目标批评更新的平滑因素1E-3（默认）|正标量小于或等于1

TargetupdateFrequency.-目标批评更新之间的步数1（默认）|正整数

resetExperienceBufferBeforring.-清除体验缓冲区的选项真的（默认）|错误的

SaveexperienceBufferWithAgent.-保存体验缓冲区的选项错误的（默认）|真的

小匹匹匹匹配-随机体验的​​大小迷你批量64.（默认）|正整数

numstepstolookahead.-用于估计政策价值的未来奖励数量1（默认）|正整数

经验性经验BufferLength.-体验缓冲区大小10000（默认）|正整数

采样时间-代理的采样时间1（默认）|正标量

贴纸物-折扣系数0.99（默认）|正标量小于或等于1

对象功能

例子

创建DQN代理选项对象

兼容性考虑因素

DQN代理的目标更新方法设置已更改

参考文献

也可以看看

话题

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

`unmorlebledqn`-使用双DQN的标志
真的（默认）|错误的

`epsilongredyexpliation.`-epsilon贪婪探索的选择
`epsilongredyexpliation.`目的

`Sequencelength.`-使用RNN时的最大批量训练轨迹长度
`1`（默认）|正整数

`targetsmoothfactor.`-目标批评更新的平滑因素
`1E-3`（默认）|正标量小于或等于1

`TargetupdateFrequency.`-目标批评更新之间的步数
`1`（默认）|正整数

`resetExperienceBufferBeforring.`-清除体验缓冲区的选项
`真的`（默认）|`错误的`

`SaveexperienceBufferWithAgent.`-保存体验缓冲区的选项
`错误的`（默认）|`真的`

`小匹匹匹匹配`-随机体验的大小迷你批量
`64.`（默认）|正整数

`numstepstolookahead.`-用于估计政策价值的未来奖励数量
`1`（默认）|正整数

`经验性经验BufferLength.`-体验缓冲区大小
`10000`（默认）|正整数

`采样时间`-代理的采样时间
`1`（默认）|正标量

`贴纸物`-折扣系数
`0.99`（默认）|正标量小于或等于1