主要内容

rlddpgagentoptions.

DDPG代理的选项

描述

用A.rlddpgagentoptions.对象指定深度确定性策略渐变(DDPG)代理的选项。要创建DDPG代理,请使用rlddpgagent.

有关更多信息,请参阅深度确定性政策梯度代理

有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人

创建

描述

选择= RLDDPGagentOptions.使用所有默认选项创建DDPG代理时,会创建用作参数的选项对象。您可以使用点表示法修改对象属性。

例子

选择= rlddpgagentoptions(名称,价值设置选项特性使用名称值对。例如,RLDDPGagentOptions('贴花因子',0.95)创建一个选项设置,折扣系数0.95。您可以指定多个名称值对。将每个属性名称括在引号中。

特性

展开全部

噪声模型选项,指定为OrnsteinuhlenbeckactionNoise.目的。有关噪声模型的更多信息,请参阅噪声模型

对于具有多种操作的代理,如果动作具有不同的范围和单位,则可能每个操作都需要不同的噪声模型参数。如果操作具有相似的范围和单位,则可以将所有操作的噪声参数设置为相同的值。

例如,对于具有两个动作的代理,在使用与标准偏差的相同衰减速率的同时将每个动作的标准偏差设置为不同的值。

选择= rlddpgagentoptions;opt.expliationModel.StandardDeviation = [0.1 0.2];opt.explorationModel.StandardDeviationDecayrate = 1E-4;

目标演员和评论家更新的平滑因子指定为小于或等于1的正标量。有关更多信息,请参阅目标更新方法

目标演员和批评者更新之间的步数,指定为正整数。有关更多信息,请参阅目标更新方法

选择在培训前清除体验缓冲区的选项,指定为逻辑值。

保存代理时保存体验缓冲区数据的选项,指定为逻辑值。在培训期间保存候选代理以及使用时,此选项均适用保存功能。

对于某些代理,例如具有大经验缓冲区和基于图像的观察的代理,节省其体验缓冲区所需的内存大。在这种情况下,不保存体验缓冲区数据,设置SaveexperienceBufferWithAgent.错误的

如果您计划进一步列出已保存的代理,您可以使用以前的经验缓冲区作为起点开始培训。在这种情况下,设置SaveexperienceBufferWithAgent.真的

使用经常性神经网络时的最大批量训练轨迹长度,指定为正整数。该值必须大于1使用经常性神经网络时1除此以外。

随机体验迷你批次的大小,指定为正整数。在每次训练期间,代理在计算渐变时随机随机采样从体验缓冲区的体验,以更新批评属性。大型批次在计算梯度时减少方差,但增加计算工作。

用于估算策略值的未来奖励的数量,指定为正整数。有关详细信息,请参见[1],(第7章)。

用于估算策略值的未来奖励的数量,指定为正整数。有关更多信息,请参阅[1]的第7章。

经验缓冲区大小,指定为正整数。在培训期间,代理使用从缓冲区随机采样的迷你批次体验计算更新。

代理的采样时间,指定为正标量。

在Simulink万博1manbetx中®环境,代理商每次执行采样时间模拟时间秒。

在Matlab中®环境,代理每次环境进步时都会执行。然而,采样时间是输出体验中连续元素之间的时间间隔SIM或者火车

在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。

对象功能

rlddpgagent. 深度确定性政策梯度加固学习代理

例子

全部收缩

此示例显示如何创建DDPG代理选项对象。

创建一个rlddpgagentoptions.指定迷你批量大小的对象。

opt = rlddpgagentoptions('minibatchsize',48)
Opt =具有属性的RLDDPGGagentOptions:NoteToptions:[1x1 RL.Option.ornsteinuhlenbeckactionNoise] TargetSmoothFactor:1 1.0000E-03目标updateFrequency:1 resetExperienceBufferBeforting:1 SaveExperienceBufferWithAgent:0 SemenCelength:1 MiniBatchsize:48 NumStepstoLokeAhead:1 MacusingBufferLength:10000

您可以使用点表示法修改选项。例如,将代理采样时间设置为0.5

opt.sampletime = 0.5;

算法

展开全部

兼容性考虑因素

展开全部

不推荐从R2021A开始

R2020A中的行为发生了变化

参考

[1] Sutton,Richard S.和Andrew G. Barto。强化学习:介绍。第二版。自适应计算与机器学习。剑桥,质量:2018年的麻省理工学院新闻。

也可以看看

在R2019A介绍