主要内容

rlrepresentationOptions.

为强化学习代理表示(批评者和参与者)设置的选项

创建

描述

例子

repOpts= rlrepresentationOptions.创建默认选项设置以在创建强化学习演员或评论家时用作最后一个参数。您可以使用点表示法修改对象属性。

例子

repOpts= rlRepresentationOptions (名称,值创建使用指定的选项集特性使用一个或多个名称-值对参数。

特性

全部展开

表示的学习率,指定为逗号分隔的配对'学习'和正标量。如果学习率太低,则培训需要很长时间。如果学习率太高,则培训可能达到次优效果或分歧。

例子:“LearnRate”,0.025

优化器用于培训表示的网络,指定为逗号分隔的配对组成“优化”和以下一个字符串之一:

  • “亚当”- 使用adam优化器。您可以使用该方法指定渐变和平方渐变移动平均值的衰减率GradientDecayFactorsquaredgradientdecayfactor.田野的领域优化器参数选择。

  • “个”-使用随机梯度下降与动量(SGDM)优化器。可以使用。指定动量值动力场面的领域优化器参数选择。

  • “rmsprop”- 使用RMSProp优化器。您可以使用该方法指定平方梯度移动平均值的衰减率squaredgradientdecayfactor.田野的领域优化器参数选择。

有关这些优化器的更多信息,请参见随机梯度下降的算法部分trainingOptions在深度学习工具箱™中。

例子:“优化”、“个”

优化器的适用参数,指定为逗号分隔对,由'OptimizerParameters'和一个优化器参数对象,其参数如下。

范围 描述
动力

上一步的贡献,指定为从0到1的标量。值为0表示前一步没有贡献。值为1表示最大贡献。

此参数仅适用于什么时候优化器“个”.在这种情况下,默认值为0.9。此默认值适用于大多数问题。

ε

分母偏移量,指定为正标量。优化器将这个偏移量加到网络参数更新中的分母上,以避免被零除掉。

此参数仅适用于什么时候优化器“亚当”要么“rmsprop”.在这种情况下,默认值为10-8.此默认值适用于大多数问题。

GradientDecayFactor

衰减梯度移动平均值的速度,指定为0到1的正标量。

此参数仅适用于什么时候优化器“亚当”.在这种情况下,默认值为0.9。此默认值适用于大多数问题。

squaredgradientdecayfactor.

平均平均移动平均值的衰减率,指定为0到1的正标量。

此参数仅适用于什么时候优化器“亚当”要么“rmsprop”.在这种情况下,默认值是0.999。此默认值适用于大多数问题。

当一个特殊的性质优化器参数的优化器类型不适用优化器选项时,该属性将被设置为“不适用”

若要更改默认值,请创建rlrepresentationOptions.设置并使用点符号来访问和更改属性优化器参数

repOpts = rlRepresentationOptions;Repopts.OptimizerParameters.gradientDecayFactor = 0.95;

表示梯度的阈值,指定为逗号分隔对组成“GradientThreshold”或者一个正标量。属性指定的渐变将被剪切GradientThresholdmethod.选择。裁剪梯度限制了训练迭代中网络参数的变化。

例子:'GradientThreshold',1

用于剪辑超过梯度阈值的梯度值的梯度阈值方法,指定为包括的逗号分隔对'GradientThresholdMethod'和以下一个字符串之一:

  • “l2norm”- 如果是L.2可学习参数的梯度范数大于毕业生察列人,然后缩放渐变使得L.2规范=毕业生察列人

  • “global-l2norm”—全局L.2规范,L.,比毕业生察列人,然后将所有梯度按……的倍数缩放毕业分子/L..全球L.2Norm考虑了所有可学习的参数。

  • “绝对值”- 如果在学习参数的梯度中的单个部分导数的绝对值大于毕业生察列人,然后缩放偏导数,使其大小等于毕业生察列人并保留部分衍生物的迹象。

有关更多信息,请参阅渐变剪裁的算法部分trainingOptions在深度学习工具箱中。

例子:'GradientThresholdmethod',“绝对值”

因素L.2正则化(权重衰减),指定为逗号分隔对,由“L2RegularizationFactor”和一个非负标量。有关更多信息,请参阅L2正则化的算法部分trainingOptions在深度学习工具箱中。

当使用带有多个参数的表示时,为了避免过拟合,可以考虑增加L2RegularizationFactor.选择。

例子:'l2regularizationfactor',0.0005

用于执行深度神经网络操作的计算设备,例如培训期间的梯度计算,参数更新和预测。它被指定为逗号分隔的配对组成“UseDevice”,要么“中央处理器”要么“GPU”

“GPU”选项需要并行计算工具箱™软件和CUDA®使英伟达®GPU。有关支持的GPU的更多信息,请参阅万博1manbetxGPU支万博1manbetx持情况(并行计算工具箱)

您可以使用gpuDevice(并行计算工具箱)查询或选择要与MATLAB一起使用的本地GPU设备®

笔记

在GPU上训练或模拟代理涉及特定于设备的数值四舍五入错误。与在CPU上执行相同的操作相比,这些错误会产生不同的结果。

请注意,如果要使用并行处理来加速培训,则无需设置UseDevice.相反,在培训代理时,使用rlTrainingOptions其中的对象UseParallel选项设置为真正的.有关使用多核处理器和GPU进行培训的更多信息,请参阅使用并行计算和gpu的列车代理

例子:'moundmevice',“gpu”

对象的功能

rlvalueerepresentation 强化学习主体的价值函数批判表示
rlqvalueerepresentation Q-Value Function评论家强化学习代理的代表
RLDETerminyActorRepresentation 强化学习主体的确定性行为体表示
rlStochasticActorRepresentation 强化学习智能体的随机角色表示

例子

全部折叠

创建一个选项集,用于为强化学习代理创建批评者或演员表示。将表示的学习速率设置为0.05,并将渐变阈值设置为1.您可以使用名称设置选项,在创建选项集时使用值对。您未明确设置的任何选项都具有其默认值。

repOpts = rlRepresentationOptions ('学习'5飞行,......“GradientThreshold”, 1)
Repopts = RlrepresentationOptions与属性:0.0500梯度察勒尔德:1梯度察勒尔德:“L2norm”L2RegularizationFactor:1.0000E-04使用:“CPU”优化器:“adam”优化器参数:[1x1 rl.option.optimizerparameters]

或者,创建一个默认选项集,并使用点符号来更改一些值。

repOpts = rlRepresentationOptions;repOpts。L.earnRate = 5e-2; repOpts.GradientThreshold = 1
Repopts = RlrepresentationOptions与属性:0.0500梯度察勒尔德:1梯度察勒尔德:“L2norm”L2RegularizationFactor:1.0000E-04使用:“CPU”优化器:“adam”优化器参数:[1x1 rl.option.optimizerparameters]

如果您想要更改优化器参数选项,使用DOT表示法访问它们。

Repopts.OptimizerParameters.epsilon = 1E-7;Repopts.OptimizerParameters.
ans = OptimizerParameters与属性:动量:“不适用”Epsilon: 1.0000e-07 GradientDecayFactor: 0.9000 SquaredGradientDecayFactor: 0.9990
在R2019A介绍