rlDQNAgentOptions

DQN代理的选项

展开页面中的所有内容

描述

使用一个rlDQNAgentOptions对象指定深度Q-network (DQN)代理的选项。要创建DQN代理，请使用rlDQNAgent．

有关详细信息，请参见深Q-Network代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlDQNAgentOptions

选择= rlDQNAgentOptions(名称、值)

描述

选择= rlDQNAgentOptions在使用所有默认设置创建DQN代理时，创建一个options对象作为参数使用。您可以使用点表示法修改对象属性。

例子

选择= rlDQNAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建折扣系数为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`UseDoubleDQN`- - - - - -使用双DQN的标志
真正的(默认)|假

使用双DQN更新值函数目标的标志，指定为一个逻辑值。对于大多数应用程序集UseDoubleDQN来“上”．有关详细信息，请参见深Q-Network代理．

`EpsilonGreedyExploration`- - - - - -贪婪探索选项
`EpsilonGreedyExploration`对象

贪婪搜索选项，指定为EpsilonGreedyExploration对象，具有以下属性。

财产	描述	默认值
`ε`	概率阈值可以随机选择一个动作，也可以选择使状态-动作值函数最大化的动作。的较大值`ε`意味着代理以更高的速率随机探索动作空间。	`1`
`EpsilonMin`	最小值的`ε`	`0.01`
`EpsilonDecay`	衰减率	`0.0050`

在每个训练时间步的末尾，如果ε大于EpsilonMin，然后使用以下公式更新它。

ε=ε* (1-EpsilonDecay)

如果你的代理过于快速地收敛于局部最优，你可以通过增加代理来促进探索ε．

控件创建后，请使用点符号指定搜索选项rlDQNAgentOptions对象选择．例如，将值设置为0．9．

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`SequenceLength`- - - - - -使用RNN时的最大批训练轨迹长度
`1`(默认)|正整数

使用递归神经网络对批评家进行批处理时的最大批训练轨迹长度，指定为正整数。该值必须大于1当使用循环神经网络的批评家和1否则。

`TargetSmoothFactor`- - - - - -目标批评家更新的平滑因子
`1 e - 3`(默认)|小于等于1的正标量

目标批评家更新的平滑因子，指定为小于或等于1的正标量。有关详细信息，请参见目标更新方法．

`TargetUpdateFrequency`- - - - - -目标批评家更新之间的步骤数
`1`(默认)|正整数

目标批评家更新之间的步骤数，指定为正整数。有关详细信息，请参见目标更新方法．

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

用于在训练前清除经验缓冲区的选项，指定为一个逻辑值。

`SaveExperienceBufferWithAgent`- - - - - -保存经验缓冲区的选项
`假`(默认)|`真正的`

保存代理时保存体验缓冲区数据的选项，指定为逻辑值。方法保存候选代理时和保存代理时，此选项都适用保存函数。

对于某些代理来说，比如那些拥有大量经验缓冲区和基于图像的观察的代理，保存它们的经验缓冲区所需的内存很大。在这种情况下，不保存经验缓冲区的数据，设置SaveExperienceBufferWithAgent来假．

如果你计划进一步训练你保存的代理人，你可以从之前的经验缓冲开始训练。在本例中，setSaveExperienceBufferWithAgent来真正的．

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

随机经验小批量的大小，指定为正整数。在每次训练过程中，agent在计算梯度更新批评家属性时，从经验缓冲区中随机抽取经验。当计算梯度时，大的小批量减少了方差，但增加了计算工作量。

当对批评家使用循环神经网络时，MiniBatchSize在批次中经历轨迹的数量，其中每个轨迹的长度等于SequenceLength．

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数
`1`(默认)|正整数

用于估计策略值的未来奖励数，指定为正整数。有关更多信息，请参见[1]的第7章。

N-step Q学习不支持使用循环神经网络的批评家万博1manbetx。在这种情况下,NumStepsToLookAhead必须1．

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

体验缓冲区大小，指定为正整数。在训练期间，代理使用从缓冲区随机取样的小批量经验来计算更新。

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

药剂的取样时间，以正标量表示。

在一个模型万博1manbetx^®环境中，代理每执行一次SampleTime模拟时间秒。

在MATLAB^®环境，每次环境前进时执行代理。然而,SampleTime输出经验中连续元素之间的时间间隔是由sim卡或火车．

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

在培训期间应用于未来奖励的折扣因子，指定为小于或等于1的正标量。

对象的功能

rlDQNAgent 深度q -网络强化学习agent

例子

全部折叠

创建DQN代理选项对象

打开生活的脚本

这个示例展示了如何创建DQN代理选项对象。

创建一个rlDQNAgentOptions对象，该对象指定代理小批量大小。

选择= rlDQNAgentOptions (“MiniBatchSize”48)

EpsilonGreedyExploration: [1x1 rl.option.]EpsilonGreedyExploration] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以使用点表示法修改选项。例如，设置座席采样时间为0．5．

opt.SampleTime = 0.5;

兼容性的考虑

全部展开

DQN代理的目标更新方法设置已更改

R2020a中行为改变

DQN代理的目标更新方法设置已更改。以下更改需要更新你的代码:

的TargetUpdateMethod选项已被移除。现在，DQN代理根据TargetUpdateFrequency和TargetSmoothFactor选项值。
的默认值TargetUpdateFrequency已经从4来1．

要使用下列目标更新方法之一，请设置TargetUpdateFrequency和TargetSmoothFactor属性显示。

更新方法	`TargetUpdateFrequency`	`TargetSmoothFactor`
平滑	`1`	不到`1`
周期	大于`1`	`1`
周期性平滑(R2020a中的新方法)	大于`1`	不到`1`

默认的目标更新配置，它是一个平滑更新，带有TargetSmoothFactor的价值0.001，不变。

更新代码

这个表格显示了一些典型的用法rlDQNAgentOptions以及如何更新代码以使用新的选项配置。

不推荐	推荐
选择= rlDQNAgentOptions(“TargetUpdateMethod”、“平滑”);	选择= rlDQNAgentOptions;
选择= rlDQNAgentOptions(“TargetUpdateMethod”、“周期”);	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 4;opt.TargetSmoothFactor = 1;
选择= rlDQNAgentOptions;opt.TargetUpdateMethod =“周期性”;opt.TargetUpdateFrequency = 5;	选择= rlDQNAgentOptions;opt.TargetUpdateFrequency = 5;opt.TargetSmoothFactor = 1;

不推荐

参考文献

[1] Sutton, Richard S.和Andrew G. Barto。强化学习:导论．第二版。自适应计算和机器学习。马萨诸塞州剑桥:麻省理工学院出版社，2018。

另请参阅

主题

深Q-Network代理

介绍了R2019a

rlDQNAgentOptions

描述

创建

语法

描述

属性

`UseDoubleDQN`- - - - - -使用双DQN的标志
真正的(默认)|假

`EpsilonGreedyExploration`- - - - - -贪婪探索选项
`EpsilonGreedyExploration`对象

`SequenceLength`- - - - - -使用RNN时的最大批训练轨迹长度
`1`(默认)|正整数

`TargetSmoothFactor`- - - - - -目标批评家更新的平滑因子
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标批评家更新之间的步骤数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -保存经验缓冲区的选项
`假`(默认)|`真正的`

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建DQN代理选项对象

兼容性的考虑

DQN代理的目标更新方法设置已更改

参考文献

另请参阅

主题

强化学习工具箱文档

万博1manbetx

用MATLAB和Simulink进行强化学习万博1manbetx

rlDQNAgentOptions

描述

创建

语法

描述

属性

UseDoubleDQN- - - - - -使用双DQN的标志真正的(默认)|假

EpsilonGreedyExploration- - - - - -贪婪探索选项EpsilonGreedyExploration对象

SequenceLength- - - - - -使用RNN时的最大批训练轨迹长度1(默认)|正整数

TargetSmoothFactor- - - - - -目标批评家更新的平滑因子1 e - 3(默认)|小于等于1的正标量

TargetUpdateFrequency- - - - - -目标批评家更新之间的步骤数1(默认)|正整数

ResetExperienceBufferBeforeTraining- - - - - -清除经验缓冲区的选项真正的(默认)|假

SaveExperienceBufferWithAgent- - - - - -保存经验缓冲区的选项假(默认)|真正的

MiniBatchSize- - - - - -随机经验小批量的大小64(默认)|正整数

NumStepsToLookAhead- - - - - -用于估计保单价值的未来奖励数1(默认)|正整数

ExperienceBufferLength- - - - - -经验的缓冲区大小10000(默认)|正整数

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建DQN代理选项对象

兼容性的考虑

DQN代理的目标更新方法设置已更改

参考文献

另请参阅

主题

强化学习工具箱文档

万博1manbetx

用MATLAB和Simulink进行强化学习万博1manbetx

`UseDoubleDQN`- - - - - -使用双DQN的标志
真正的(默认)|假

`EpsilonGreedyExploration`- - - - - -贪婪探索选项
`EpsilonGreedyExploration`对象

`SequenceLength`- - - - - -使用RNN时的最大批训练轨迹长度
`1`(默认)|正整数

`TargetSmoothFactor`- - - - - -目标批评家更新的平滑因子
`1 e - 3`(默认)|小于等于1的正标量

`TargetUpdateFrequency`- - - - - -目标批评家更新之间的步骤数
`1`(默认)|正整数

`ResetExperienceBufferBeforeTraining`- - - - - -清除经验缓冲区的选项
`真正的`(默认)|`假`

`SaveExperienceBufferWithAgent`- - - - - -保存经验缓冲区的选项
`假`(默认)|`真正的`

`MiniBatchSize`- - - - - -随机经验小批量的大小
`64`(默认)|正整数

`NumStepsToLookAhead`- - - - - -用于估计保单价值的未来奖励数
`1`(默认)|正整数

`ExperienceBufferLength`- - - - - -经验的缓冲区大小
`10000`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量