rlRepresentationOptions

为强化学习代理人表示设置选项(评论家和演员)

创建

描述

repOpts= rlRepresentationOptions创建一个默认选项设置为最后一个参数创造了强化学习的演员或批评时使用。您可以修改使用点符号对象属性。

repOpts= rlRepresentationOptions(名称,值创建一个具有指定设置的选项属性使用一个或多个名称 - 值对的参数。

属性

展开全部

为表示学习率,指定为逗号分隔的一对组成的'LearnRate'和正标量。如果学习率过低,那么培训需要很长的时间。如果学习率过高,那么训练可能达到次优的结果或发散。

例:'LearnRate',0.025

优化器用于训练的表示的网络,指定为逗号分隔的一对组成的“优化”与下列字符串之一:

  • “亚当”- 使用亚当优化。您可以指定使用的梯度和梯度平方移动平均线的衰减率GradientDecayFactorSquaredGradientDecayFactor领域OptimizerParameters选项。

  • “SGDM”- 使用随机梯度下降动量(SGDM)优化。您可以使用指定的势头值动量领域OptimizerParameters选项。

  • “rmsprop”- 使用RMSProp优化。您可以指定平方梯度的衰减率使用移动平均线SquaredGradientDecayFactor领域OptimizerParameters选项。

有关这些优化的更多信息,请参阅随机梯度下降(深学习工具箱)中的算法部分trainingOptions在深学习工具箱™。

例:'优化', “SGDM”

为优化适用的参数,指定为逗号分隔的一对组成的'OptimizerParameters'OptimizerParameters宾语。

OptimizerParameters对象具有以下属性。

动量

前一步骤的贡献,指定为从0表示没有来自前一步骤的贡献为0〜1的值的标。的值为1表示最大的贡献。

此参数仅适用于优化“SGDM”。在这种情况下,默认值是0.9。此默认值适用于大多数的问题。

小量

分母偏移,指定为正标量。优化器会将此偏移在网络参数更新分母零,以避免分裂。

此参数仅适用于优化“亚当”要么rmsprop。在这种情况下,默认值是10-8。此默认值适用于大多数的问题。

GradientDecayFactor

梯度移动平均的衰减率,指定为正标量从0到1。

此参数仅适用于优化“亚当”。在这种情况下,默认值是0.9。此默认值适用于大多数的问题。

SquaredGradientDecayFactor

平方梯度移动平均的衰减率,指定为正标量从0到1。

此参数仅适用于优化“亚当”要么“rmsprop”。在这种情况下,默认值是0.999。此默认值适用于大多数的问题。

当一个特定属性OptimizerParameters并不适用于在指定的优化类型优化选项,属性设置为“不适用”

要更改默认值,创建rlRepresentationOptions设置和使用点符号来访问和更改的属性OptimizerParameters

repOpts = rlRepresentationOptions;repOpts.OptimizerParameters.Epsilon = 1E-7;

为表示梯度阈值,指定为逗号分隔的一对组成的'GradientThreshold'天道酬勤或正标量。如果梯度超过此值,由指定的梯度被削波GradientThresholdOption。裁剪网络参数的训练迭代多少改变渐变的限制。

例:'GradientThreshold',1

用来夹超出梯度阈值的梯度值的梯度阈值的方法,指定为逗号分隔的一对组成的'GradientThresholdMethod'与下列字符串之一:

  • “l2norm”- 如果大号2一个可学习参数的梯度范数大于GradientThreshold,则缩放梯度,使得大号2规范平等GradientThreshold

  • “全球l2norm”- 如果全球大号2规范,大号,大于GradientThreshold,然后通过一个因子缩放所有梯度GradientThreshold /大号。全球大号2规范考虑了所有可以学习的参数。

  • “绝对值”- 如果一个人偏导数的一个中可学习参数的梯度的绝对值大于GradientThreshold,然后,扩展的偏导数为具有大小等于GradientThreshold和保留的偏导数的符号。

欲了解更多信息,请参阅渐变剪辑(深学习工具箱)中的算法部分trainingOptions在深学习工具箱。

例:“GradientThresholdMethod”,“绝对值”

因素大号2正则化(重量衰减),指定为逗号分隔的一对组成的'L2RegularizationFactor'和一个非负标量。欲了解更多信息,请参阅L2正则化(深学习工具箱)中的算法部分trainingOptions在深学习工具箱。

为了避免使用带有许多参数的表示时过度拟合,考虑增加L2RegularizationFactor选项。

例:'L2RegularizationFactor',0.0005

用于训练使用所述表示的试剂,指定为逗号分隔的一对组成的运算装置'UseDevice',要么“中央处理器”要么“GPU”

“GPU”选项需要并行计算工具箱™。要使用GPU训练网络,你还必须有一个CUDA®启用NVIDIA®GPU计算能力3.0或更高版本。

例:'UseDevice', “GPU”

对象函数

rlValueRepresentation 为强化学习代理商的价值功能评论家表示
rlQValueRepresentation 为强化学习代理的Q值函数评论家表示
rlDeterministicActorRepresentation 为强化学习代理商确定性演员表现
rlStochasticActorRepresentation 为强化学习代理随机演员表现

例子

全部收缩

创建用于创建一个强化学习剂评论家或演员表示设置的选项。为表示学习率设为0.05,梯度阈值设置为1。使用名称,值对,当你创建设置选项可以设置的选项。任何选项,你不明确设置有其默认值。

repOpts = rlRepresentationOptions('LearnRate',5E-2,...'GradientThreshold',1)
repOpts = rlRepresentationOptions与属性:LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod: “l2norm” L2RegularizationFactor:1.0000e-04 UseDevice: “CPU” 优化工具: “亚当” OptimizerParameters:[1x1的rl.option.OptimizerParameters]

另外,创建一个默认选项设置和使用点记号改变一些价值观。

repOpts = rlRepresentationOptions;repOpts.LearnRate = 5E-2;repOpts.GradientThreshold = 1
repOpts = rlRepresentationOptions与属性:LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod: “l2norm” L2RegularizationFactor:1.0000e-04 UseDevice: “CPU” 优化工具: “亚当” OptimizerParameters:[1x1的rl.option.OptimizerParameters]

如果你想改变的属性OptimizerParameters选项,使用点表示法来访问它们。

repOpts.OptimizerParameters.Epsilon = 1E-7;repOpts.OptimizerParameters
ANS = OptimizerParameters与属性:动量: “不适用” 的Epsilon:1.0000e-07 GradientDecayFactor:0.9000 SquaredGradientDecayFactor:0.9990

介绍了在R2019a