主要内容

rlDQNAgentOptions

DQN代理的选项

描述

使用一个rlDQNAgentOptions对象指定深度Q-network (DQN)代理的选项。要创建DQN代理,请使用rlDQNAgent

有关详细信息,请参见深Q-Network代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlDQNAgentOptions在使用所有默认设置创建DQN代理时,创建一个options对象作为参数使用。您可以使用点表示法修改对象属性。

例子

选择= rlDQNAgentOptions (名称,值设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建折扣系数为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

使用双DQN更新值函数目标的标志,指定为一个逻辑值。对于大多数应用程序集UseDoubleDQN“上”.有关详细信息,请参见深Q-Network代理

贪婪搜索选项,指定为EpsilonGreedyExploration对象,具有以下属性。

财产 描述 默认值
ε 概率阈值可以随机选择一个动作,也可以选择使状态-动作值函数最大化的动作。的较大值ε意味着代理以更高的速率随机探索动作空间。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050

在每个训练时间步的末尾,如果ε大于EpsilonMin,然后使用以下公式更新它。

ε=ε* (1-EpsilonDecay)

如果你的代理过于快速地收敛于局部最优,你可以通过增加代理来促进探索ε

控件创建后,请使用点符号指定搜索选项rlDQNAgentOptions对象选择.例如,将值设置为0.9

opt.EpsilonGreedyExploration.Epsilon = 0.9;

使用递归神经网络对批评家进行批处理时的最大批训练轨迹长度,指定为正整数。该值必须大于1当使用循环神经网络的批评家和1否则。

目标批评家更新的平滑因子,指定为小于或等于1的正标量。有关详细信息,请参见目标更新方法

目标批评家更新之间的步骤数,指定为正整数。有关详细信息,请参见目标更新方法

用于在训练前清除经验缓冲区的选项,指定为一个逻辑值。

保存代理时保存体验缓冲区数据的选项,指定为逻辑值。方法保存候选代理时和保存代理时,此选项都适用保存函数。

对于某些代理来说,比如那些拥有大量经验缓冲区和基于图像的观察的代理,保存它们的经验缓冲区所需的内存很大。在这种情况下,不保存经验缓冲区的数据,设置SaveExperienceBufferWithAgent

如果你计划进一步训练你保存的代理人,你可以从之前的经验缓冲开始训练。在本例中,setSaveExperienceBufferWithAgent真正的

随机经验小批量的大小,指定为正整数。在每次训练过程中,agent在计算梯度更新批评家属性时,从经验缓冲区中随机抽取经验。当计算梯度时,大的小批量减少了方差,但增加了计算工作量。

当对批评家使用循环神经网络时,MiniBatchSize在批次中经历轨迹的数量,其中每个轨迹的长度等于SequenceLength

用于估计策略值的未来奖励数,指定为正整数。有关更多信息,请参见[1]的第7章。

N-step Q学习不支持使用循环神经网络的批评家万博1manbetx。在这种情况下,NumStepsToLookAhead必须1

体验缓冲区大小,指定为正整数。在训练期间,代理使用从缓冲区随机取样的小批量经验来计算更新。

药剂的取样时间,以正标量表示。

在一个模型万博1manbetx®环境中,代理每执行一次SampleTime模拟时间秒。

在MATLAB®环境,每次环境前进时执行代理。然而,SampleTime输出经验中连续元素之间的时间间隔是由sim卡火车

在培训期间应用于未来奖励的折扣因子,指定为小于或等于1的正标量。

对象的功能

rlDQNAgent 深度q -网络强化学习agent

例子

全部折叠

这个示例展示了如何创建DQN代理选项对象。

创建一个rlDQNAgentOptions对象,该对象指定代理小批量大小。

选择= rlDQNAgentOptions (“MiniBatchSize”48)
EpsilonGreedyExploration: [1x1 rl.option.]EpsilonGreedyExploration] TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 ResetExperienceBufferBeforeTraining: 1 SaveExperienceBufferWithAgent: 0 SequenceLength: 1 MiniBatchSize: 48 NumStepsToLookAhead: 1 ExperienceBufferLength: 10000 SampleTime: 1 DiscountFactor: 0.9900

您可以使用点表示法修改选项。例如,设置座席采样时间为0.5

opt.SampleTime = 0.5;

兼容性的考虑

全部展开

R2020a中行为改变

参考文献

[1] Sutton, Richard S.和Andrew G. Barto。强化学习:导论.第二版。自适应计算和机器学习。马萨诸塞州剑桥:麻省理工学院出版社,2018。

另请参阅

介绍了R2019a