rlddpgagentoptions.

DDPG代理的选项

展开所有页面

描述

用A.rlddpgagentoptions.对象指定深度确定性策略渐变（DDPG）代理的选项。要创建DDPG代理，请使用rlddpgagent.。

有关更多信息，请参阅深度确定性政策梯度代理。

有关不同类型的强化学习代理商的更多信息，请参阅加固学习代理人。

创建

句法

opt = rlddpgagentoptions.

opt = rlddpgagentoptions（名称，值）

描述

选择= RLDDPGagentOptions.使用所有默认选项创建DDPG代理时，会创建用作参数的选项对象。您可以使用点表示法修改对象属性。

例子

选择= rlddpgagentoptions（名称，价值）设置选项特性使用名称值对。例如，RLDDPGagentOptions（'贴花因子'，0.95）创建一个选项设置，折扣系数0.95。您可以指定多个名称值对。将每个属性名称括在引号中。

特性

展开全部

`NoteToptions.`-噪声模型选项
`OrnsteinuhlenbeckactionNoise.`目的

噪声模型选项，指定为OrnsteinuhlenbeckactionNoise.目的。有关噪声模型的更多信息，请参阅噪声模型。

对于具有多种操作的代理，如果动作具有不同的范围和单位，则可能每个操作都需要不同的噪声模型参数。如果操作具有相似的范围和单位，则可以将所有操作的噪声参数设置为相同的值。

例如，对于具有两个动作的代理，在使用与标准偏差的相同衰减速率的同时将每个动作的标准偏差设置为不同的值。

选择= rlddpgagentoptions;opt.expliationModel.StandardDeviation = [0.1 0.2];opt.explorationModel.StandardDeviationDecayrate = 1E-4;

`targetsmoothfactor.`-目标演员和评论家更新的平滑因素
`1E-3`（默认）|正标量小于或等于1

目标演员和评论家更新的平滑因子指定为小于或等于1的正标量。有关更多信息，请参阅目标更新方法。

`TargetupdateFrequency.`-目标演员和评论家更新之间的步数
`1`（默认）|正整数

目标演员和批评者更新之间的步数，指定为正整数。有关更多信息，请参阅目标更新方法。

`resetExperienceBufferBeforring.`-清除体验缓冲区的选项
`真的`（默认）|`错误的`

选择在培训前清除体验缓冲区的选项，指定为逻辑值。

`SaveexperienceBufferWithAgent.`-保存体验缓冲区的选项
`错误的`（默认）|`真的`

保存代理时保存体验缓冲区数据的选项，指定为逻辑值。在培训期间保存候选代理以及使用时，此选项均适用保存功能。

对于某些代理，例如具有大经验缓冲区和基于图像的观察的代理，节省其体验缓冲区所需的内存大。在这种情况下，不保存体验缓冲区数据，设置SaveexperienceBufferWithAgent.至错误的。

如果您计划进一步列出已保存的代理，您可以使用以前的经验缓冲区作为起点开始培训。在这种情况下，设置SaveexperienceBufferWithAgent.至真的。

`Sequencelength.`-使用RNN时的最大批量训练轨迹长度
`1`（默认）|正整数

使用经常性神经网络时的最大批量训练轨迹长度，指定为正整数。该值必须大于1使用经常性神经网络时1除此以外。

`小匹匹匹匹配`-随机体验的大小迷你批量
`64.`（默认）|正整数

随机体验迷你批次的大小，指定为正整数。在每次训练期间，代理在计算渐变时随机随机采样从体验缓冲区的体验，以更新批评属性。大型批次在计算梯度时减少方差，但增加计算工作。

`numstepstolookahead.`-用于估计政策价值的未来奖励数量
`1`（默认）|正整数

用于估算策略值的未来奖励的数量，指定为正整数。有关详细信息，请参见[1]，（第7章）。

用于估算策略值的未来奖励的数量，指定为正整数。有关更多信息，请参阅[1]的第7章。

`经验性经验BufferLength.`-体验缓冲区大小
`10000`（默认）|正整数

经验缓冲区大小，指定为正整数。在培训期间，代理使用从缓冲区随机采样的迷你批次体验计算更新。

`采样时间`-代理的采样时间
`1`（默认）|正标量

代理的采样时间，指定为正标量。

在Simulink万博1manbetx中^®环境，代理商每次执行采样时间模拟时间秒。

在Matlab中^®环境，代理每次环境进步时都会执行。然而，采样时间是输出体验中连续元素之间的时间间隔SIM或者火车。

`贴纸物`-折扣系数
`0.99`（默认）|正标量小于或等于1

在培训期间应用于未来奖励的折扣因素，指定为小于或等于1的正标量。

对象功能

rlddpgagent. 深度确定性政策梯度加固学习代理

例子

全部收缩

创建DDPG代理选项对象

打开直播脚本

此示例显示如何创建DDPG代理选项对象。

创建一个rlddpgagentoptions.指定迷你批量大小的对象。

opt = rlddpgagentoptions（'minibatchsize'，48）

Opt =具有属性的RLDDPGGagentOptions：NoteToptions：[1x1 RL.Option.ornsteinuhlenbeckactionNoise] TargetSmoothFactor：1 1.0000E-03目标updateFrequency：1 resetExperienceBufferBeforting：1 SaveExperienceBufferWithAgent：0 SemenCelength：1 MiniBatchsize：48 NumStepstoLokeAhead：1 MacusingBufferLength：10000

您可以使用点表示法修改选项。例如，将代理采样时间设置为0.5。

opt.sampletime = 0.5;

算法

展开全部

噪声模型

DDPG代理使用Ornstein-Uhlenbeck动作噪声模型进行探索。

Ornstein-Uhlenbeck动作噪音

一个OrnsteinuhlenbeckactionNoise.对象具有以下数值属性。

财产	描述	默认值
`初始化`	噪声模型动作的初始值	`0.`
`吝啬的`	噪声模型意味着	`0.`
`意思是意图`	常数指定噪声模型输出的速度如何吸引到平均值	`0.15`
`standarddeviationdecayrate.`	标准偏差的衰减率	`0.`
`standarddeviation.`	噪声模型标准偏差	`0.3`
`standarddeviationmin.`	最低标准偏差	`0.`

在每个采样时间步骤K.，噪声值v（k）使用以下公式更新，其中TS.是代理采样时间，初始值V（1）由初始化范围。

v（k + 1）= v（k）+意味着。*（平均值 -  v（k））。* ts + standarddeviation（k）。* randn（尺寸（平均值））。* sqrt（ts）

在每个采样时间步骤中，标准偏差衰减如下代码所示。

衰减标准deviation = standarddeviation（k）。*（1  -  standarddeviationdecayrate）;StandardDeviation（k + 1）= max（衰减标准deviation，standarddeviationmin）;

您可以计算使用该简单公式将标准偏差减半的样本有多少样本。

halflife = log（0.5）/ log（1-standarddeviationdecayrate）;

对于连续动作信号，重要的是要适当地设置噪声标准偏差，以鼓励探索。它是常见的standarddeviation * sqrt（ts）值为您动作范围的1％至10％。

如果您的代理商在当地最佳汇集过快，请通过增加噪音量来促进代理商探索;也就是说，通过增加标准偏差。此外，为了增加探索，您可以减少standarddeviationdecayrate.。

兼容性考虑因素

展开全部

属性名称定义噪声概率分布`OrnsteinuhlenbeckactionNoise.`物体已经改变了

不推荐从R2021A开始

定义了ornstein-uhlenbeck（OU）噪声模型的概率分布的属性已被重命名。DDPG代理使用OU噪声进行探索。

这方差财产已更名standarddeviation.。
这variancedecayrate.财产已更名standarddeviationdecayrate.。
这variancemin财产已更名standarddeviationmin.。

这些属性的默认值保持不变。当AN.OrnsteinuhlenbeckactionNoise.从先前的MATLAB发布保存的噪声对象已加载，值方差那variancedecayrate.，和variancemin被复制在standarddeviation.那standarddeviationdecayrate.，和standarddeviationmin.，分别。

这方差那variancedecayrate.，和variancemin属性仍然工作，但不建议他们。要定义OU噪声模型的概率分布，请使用新的属性名称。

更新代码

此表显示如何更新代码以使用新的属性名称rlddpgagentoptions.目的ddpgopt.。

不建议	受到推崇的
ddpgopt.noiseOptions.variance = 0.5;	ddpgopt.noiseOptions.StandardDeviation = 0.5;
ddpgopt.noiseoptions.varedcedecayrate = 0.1;	ddpgopt.noiseOptions.StandardDeviationdecayrate = 0.1;
ddpgopt.noiseOptions.viarcemin = 0;	ddpgopt.noiseOptions.StandardDeviationmin = 0;

不建议

受到推崇的

ddpgopt.noiseOptions.variance = 0.5;

ddpgopt.noiseOptions.StandardDeviation = 0.5;

ddpgopt.noiseoptions.varedcedecayrate = 0.1;

ddpgopt.noiseOptions.StandardDeviationdecayrate = 0.1;

ddpgopt.noiseOptions.viarcemin = 0;

ddpgopt.noiseOptions.StandardDeviationmin = 0;

DDPG代理的目标更新方法设置已更改

R2020A中的行为发生了变化

DDPG代理的目标更新方法已更改。以下更改需要更新代码：

这targetupdatemethod.选项已被删除。现在，DDPG代理确定了基于的目标更新方法TargetupdateFrequency.和targetsmoothfactor.选项值。
默认值TargetupdateFrequency.已经改变了4.至1。

要使用以下目标更新方法之一，请设置TargetupdateFrequency.和targetsmoothfactor.所示的属性。

更新方法	`TargetupdateFrequency.`	`targetsmoothfactor.`
平滑	`1`	少于`1`
定期	比...更棒`1`	`1`
定期平滑（R2020A中的新方法）	比...更棒`1`	少于`1`

默认的目标更新配置，这是一个平滑的更新targetsmoothfactor.的价值0.001，保持原样。

更新代码

该表显示了一些典型的用途rlddpgagentoptions.以及如何更新代码以使用新的选项配置。

不建议	受到推崇的
opt = rlddpgagentoptions（'targetupdatemethod'，“平滑”）;	选择= rlddpgagentoptions;
opt = rlddpgagentoptions（'targetupdatemethod'，“定期”）;	选择= rlddpgagentoptions;opt.targetupdateFrequency = 4;opt.targetSmoothFactor = 1;
选择= rlddpgagentoptions;opt.targetupdatemethod =“定期”;opt.targetupdatefrequency = 5;	选择= rlddpgagentoptions;opt.targetupdatefrequency = 5;opt.targetSmoothFactor = 1;

不建议

受到推崇的

opt = rlddpgagentoptions（'targetupdatemethod'，“平滑”）;

选择= rlddpgagentoptions;

opt = rlddpgagentoptions（'targetupdatemethod'，“定期”）;

选择= rlddpgagentoptions;opt.targetupdateFrequency = 4;opt.targetSmoothFactor = 1;

选择= rlddpgagentoptions;opt.targetupdatemethod =“定期”;opt.targetupdatefrequency = 5;

选择= rlddpgagentoptions;opt.targetupdatefrequency = 5;opt.targetSmoothFactor = 1;

参考

[1] Sutton，Richard S.和Andrew G. Barto。强化学习：介绍。第二版。自适应计算与机器学习。剑桥，质量：2018年的麻省理工学院新闻。

也可以看看

话题

深度确定性政策梯度代理

在R2019A介绍

rlddpgagentoptions.

描述

创建

句法

描述

特性

`NoteToptions.`-噪声模型选项
`OrnsteinuhlenbeckactionNoise.`目的

`targetsmoothfactor.`-目标演员和评论家更新的平滑因素
`1E-3`（默认）|正标量小于或等于1

`TargetupdateFrequency.`-目标演员和评论家更新之间的步数
`1`（默认）|正整数

`resetExperienceBufferBeforring.`-清除体验缓冲区的选项
`真的`（默认）|`错误的`

`SaveexperienceBufferWithAgent.`-保存体验缓冲区的选项
`错误的`（默认）|`真的`

`Sequencelength.`-使用RNN时的最大批量训练轨迹长度
`1`（默认）|正整数

`小匹匹匹匹配`-随机体验的大小迷你批量
`64.`（默认）|正整数

`numstepstolookahead.`-用于估计政策价值的未来奖励数量
`1`（默认）|正整数

`经验性经验BufferLength.`-体验缓冲区大小
`10000`（默认）|正整数

`采样时间`-代理的采样时间
`1`（默认）|正标量

`贴纸物`-折扣系数
`0.99`（默认）|正标量小于或等于1

对象功能

例子

创建DDPG代理选项对象

算法

噪声模型

兼容性考虑因素

属性名称定义噪声概率分布`OrnsteinuhlenbeckactionNoise.`物体已经改变了

DDPG代理的目标更新方法设置已更改

参考

也可以看看

话题

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

rlddpgagentoptions.

描述

创建

句法

描述

特性

NoteToptions.-噪声模型选项OrnsteinuhlenbeckactionNoise.目的

targetsmoothfactor.-目标演员和评论家更新的平滑因素1E-3（默认）|正标量小于或等于1

TargetupdateFrequency.-目标演员和评论家更新之间的步数1（默认）|正整数

resetExperienceBufferBeforring.-清除体验缓冲区的选项真的（默认）|错误的

SaveexperienceBufferWithAgent.-保存体验缓冲区的选项错误的（默认）|真的

Sequencelength.-使用RNN时的最大批量训练轨迹长度1（默认）|正整数

小匹匹匹匹配-随机体验的​​大小迷你批量64.（默认）|正整数

numstepstolookahead.-用于估计政策价值的未来奖励数量1（默认）|正整数

经验性经验BufferLength.-体验缓冲区大小10000（默认）|正整数

采样时间-代理的采样时间1（默认）|正标量

贴纸物-折扣系数0.99（默认）|正标量小于或等于1

对象功能

例子

创建DDPG代理选项对象

算法

噪声模型

兼容性考虑因素

属性名称定义噪声概率分布OrnsteinuhlenbeckactionNoise.物体已经改变了

DDPG代理的目标更新方法设置已更改

参考

也可以看看

话题

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

`NoteToptions.`-噪声模型选项
`OrnsteinuhlenbeckactionNoise.`目的

`targetsmoothfactor.`-目标演员和评论家更新的平滑因素
`1E-3`（默认）|正标量小于或等于1

`TargetupdateFrequency.`-目标演员和评论家更新之间的步数
`1`（默认）|正整数

`resetExperienceBufferBeforring.`-清除体验缓冲区的选项
`真的`（默认）|`错误的`

`SaveexperienceBufferWithAgent.`-保存体验缓冲区的选项
`错误的`（默认）|`真的`

`Sequencelength.`-使用RNN时的最大批量训练轨迹长度
`1`（默认）|正整数

`小匹匹匹匹配`-随机体验的大小迷你批量
`64.`（默认）|正整数

`numstepstolookahead.`-用于估计政策价值的未来奖励数量
`1`（默认）|正整数

`经验性经验BufferLength.`-体验缓冲区大小
`10000`（默认）|正整数

`采样时间`-代理的采样时间
`1`（默认）|正标量

`贴纸物`-折扣系数
`0.99`（默认）|正标量小于或等于1

属性名称定义噪声概率分布`OrnsteinuhlenbeckactionNoise.`物体已经改变了