主要内容

rlRepresentationOptions

用于强化学习代理商的选项(批评者和演员)

创造

描述

实例

重新追索=rlRepresentationOptions创建默认选项设置以在创建强化学习演员或评论家时用作最后一个参数。您可以使用点表示法修改对象属性。

实例

重新追索= rlrepresentationOptions(名称,价值)创建具有指定属性的选项集性质使用一个或多个名称-值对参数。

性质

展开全部

表示的学习速率,指定为正标量。如果学习率太低,那么培训需要很长时间。如果学习率太高,那么训练可能会达到次优结果或出现分歧。

例子:'学习',0.025

用于训练表示网络的优化器,指定为以下值之一。

  • “亚当”-使用Adam优化器。您可以使用梯度Dayfactor.平方半径衰减因子田野优化参数选项。

  • “SGDM”- 使用动量(SGDM)优化器的随机梯度下降。您可以使用使用的势头推进力领域优化参数选项。

  • “rmsprop”-使用RMSProp优化器。您可以使用平方半径衰减因子田野优化参数选项。

有关这些优化器的更多信息,请参阅随机梯度下降法在算法部分培训选项在深度学习工具箱中™.

例子:'优化器',“SGDM”

优化器的适用参数,指定为一个优化参数对象具有以下参数。

参数 描述
推进力

前一步的贡献指定为标量为0到1.值为0表示从前一步没有贡献。值1表示最大贡献。

此参数仅在以下情况下适用:优化器“SGDM”。在这种情况下,默认值为0.9。此默认值适用于大多数问题。

ε

偏移量偏移,指定为正标量。优化器将此偏移量添加到网络参数更新中的分母,以避免分割零。

此参数仅在以下情况下适用:优化器“亚当”“rmsprop”。在这种情况下,默认值为10–8。此默认值适用于大多数问题。

梯度Dayfactor.

梯度移动平均的衰减率,指定为从0到1的正标量。

此参数仅在以下情况下适用:优化器“亚当”。在这种情况下,默认值为0.9。此默认值适用于大多数问题。

平方半径衰减因子

平方梯度移动平均的衰减率,指定为从0到1的正标量。

此参数仅在以下情况下适用:优化器“亚当”“rmsprop”.在这种情况下,默认值为0.999。此默认值适用于大多数问题。

当一个特定的财产优化参数不适用于所指定的优化器类型优化器选项,该属性设置为“不适用”.

要更改默认值,请创建一个rlRepresentationOptions设置并使用点表示法来访问和更改优化参数.

repOpts=rlRepresentationOptions;repOpts.OptimizerParameters.GradientDecayFactor=0.95;

表示梯度的阈值,指定为INF.或正标量。如果梯度超过此值,则按照指定剪切梯度梯度阈值法选项。剪切梯度限制网络参数在训练迭代中的变化程度。

例子:“梯度阈值”,1

用于剪辑超过梯度阈值的梯度值的梯度阈值方法,指定为以下值之一。

  • “l2norm”-如果L2.可学习参数的梯度范数大于梯度阈值,然后缩放渐变,使L2.规范等于梯度阈值.

  • “全局l2norm”- 如果是全球性的L2.规范,L,大于梯度阈值,然后将所有梯度缩放到一个因素梯度阈值/L.全球L2.规范考虑所有可学习的参数。

  • “绝对值”-如果可学习参数梯度中单个偏导数的绝对值大于梯度阈值,然后缩放部分导数以具有等于的幅度梯度阈值保留偏导数的符号。

有关更多信息,请参阅渐变剪裁在算法部分培训选项在深度学习工具箱中。

例子:“GradientThresholdMethod”,“绝对值”

因素L2.正则化(权重衰减),指定为非负标量。有关详细信息,请参阅L2正则化在算法部分培训选项在深度学习工具箱中。

为了避免使用与许多参数的表示时,请考虑增加L2调节因子选项。

例子:“L2调节系数”,0.0005

用于执行深度神经网络操作的计算设备,例如培训期间的梯度计算,参数更新和预测。它是指定的“cpu”“gpu”.

这个“gpu”该选项需要两个并行计算工具箱™ 软件和CUDA®启用nvidia.®GPU。有关支持的GPU的更多信息,请参阅万博1manbetxGPU通万博1manbetx过发布支持(并行计算工具箱).

您可以使用GPudevice.(并行计算工具箱)查询或选择要与MATLAB一起使用的本地GPU设备®.

笔记

培训或模拟GPU上的代理涉及设备特定的数值舍入错误。与执行相同的操作相比,这些错误可以产生不同的结果。

请注意,如果要使用并行处理来加速训练,则不需要设置umussevice.. 相反,在培训代理时,请使用rltringOptions.对象,其中使用指α.选项设置为真的. 有关使用多核处理器和GPU进行培训的更多信息,请参阅使用并行计算和GPU的火车代理.

例子:“使用设备”,“gpu”

目标函数

rlValueRepresentation 增强学习代理的价值函数批评者表示
rlQValueRepresentation 强化学习agent的Q值函数批评表示
决定论呈现 钢筋学习代理的确定性演员代表
rlstochastorrepresentation 加固学习代理的随机演员代表

例子

全部收缩

创建用于为强化学习代理创建批评家或参与者表示的选项集。将表示的学习速率设置为0.05,并将渐变阈值设置为1。创建选项集时,可以使用名称、值对设置选项。未显式设置的任何选项都有其默认值。

repOpts=rlRepresentationOptions(“LearnRate”,5e-2,...'gradientthreshold'1)
repOpts=rlRepresentationOptions,属性:LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod:“l2norm”L2调节因子:1.0000e-04使用设备:“cpu”优化器:“adam”优化器参数:[1x1 rl.option.OptimizerParameters]

或者,创建默认选项集并使用点表示法来更改一些值。

Repopts = rlrepresentationOptions;Repopts.Learnrate = 5e-2;repopts.gradientthreshold = 1
repOpts=rlRepresentationOptions,属性:LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod:“l2norm”L2调节因子:1.0000e-04使用设备:“cpu”优化器:“adam”优化器参数:[1x1 rl.option.OptimizerParameters]

如果要更改属性优化参数选项,使用点符号访问它们。

repOpts.OptimizerParameters.Epsilon=1e-7;repOpts.OptimizerParameters
ANS = OptimizerParameters具有属性:动量:“不适用”epsilon:1.0000E-07 GradientDecayfactor:0.9000 SquaredgradientDecayfactor:0.9990
在R2019a中引入