主要内容

rlRepresentationOptions

选项设置为强化学习代理表示(批评家和演员)

创建

描述

例子

repOpts= rlRepresentationOptions创建一个默认的选项设置为使用创建强化学习演员时作为最后一个参数或评论家。您可以修改对象属性使用点符号。

例子

repOpts= rlRepresentationOptions (名称,值)创建一个与指定的选项设置属性使用一个或多个名称-值对参数。

属性

全部展开

学习速率的表示形式,指定为一个积极的标量。如果学习速率太低,那么培训需要很长时间。如果学习速率过高,那么训练可能会达到一个理想的结果或发散。

例子:“LearnRate”, 0.025

优化培训的网络表示,指定为以下值之一。

  • “亚当”——亚当优化器使用。您可以指定的衰变速率梯度和平方梯度移动平均线使用GradientDecayFactorSquaredGradientDecayFactor的字段OptimizerParameters选择。

  • “个”——使用随机梯度下降势头(个)优化器。您可以指定使用动量值动力场的OptimizerParameters选择。

  • “rmsprop”——RMSProp优化器使用。您可以指定的衰变率的平方梯度移动平均使用SquaredGradientDecayFactor的字段OptimizerParameters选择。

对这些优化器的更多信息,见随机梯度下降法的算法部分trainingOptions在深入学习工具箱™。

例子:“优化”、“个”

适用的优化参数,指定为一个OptimizerParameters对象使用以下参数。

参数 描述
动力

上一步的贡献,从0到1指定为一个标量。值0表示没有从前面步骤的贡献。值为1时表示最大的贡献。

这个参数只适用于当优化器“个”。在这种情况下,默认值是0.9。这个默认值适用于大多数问题。

ε

分母抵消,指定为一个积极的标量。优化器添加这个抵消分母在网络参数更新以避免除零。

这个参数只适用于当优化器“亚当”“rmsprop”。在这种情况下,默认值是108。这个默认值适用于大多数问题。

GradientDecayFactor

衰变的速度梯度移动平均,指定为一个积极的标量从0到1。

这个参数只适用于当优化器“亚当”。在这种情况下,默认值是0.9。这个默认值适用于大多数问题。

SquaredGradientDecayFactor

衰变率的平方梯度移动平均,指定为一个积极的标量从0到1。

这个参数只适用于当优化器“亚当”“rmsprop”。在这种情况下,默认值是0.999。这个默认值适用于大多数问题。

当一个特定的属性OptimizerParameters不适用于优化器中指定的类型优化器选项,属性设置为“不适用”

改变默认值,创建一个rlRepresentationOptions设置和使用点符号来访问和更改的属性OptimizerParameters

repOpts = rlRepresentationOptions;repOpts.OptimizerParameters。GradientDecayFactor = 0.95;

表示梯度阈值,指定为或积极的标量。如果梯度超过这个值,指定的梯度是剪GradientThresholdMethod选择。剪切梯度限制多少训练的网络参数变化迭代。

例子:“GradientThreshold”, 1

梯度阈值方法用来夹梯度值超过梯度阈值,指定为以下值之一。

  • “l2norm”——如果l2规范的梯度大于可学的参数GradientThreshold,然后尺度梯度,这样l2规范=GradientThreshold

  • “global-l2norm”——如果全球l2规范,l,比GradientThreshold规模,那么所有渐变的一个因素GradientThreshold /l。全球l2规范考虑所有可学的参数。

  • “绝对值”——如果一个个体的绝对值偏导数的梯度大于可学的参数GradientThreshold,然后规模偏导数等于级GradientThreshold和留住偏导数的符号。

有关更多信息,请参见梯度剪裁的算法部分trainingOptions在深入学习工具箱。

例子:“GradientThresholdMethod”、“绝对值”

因素l2正规化(重量衰变),指定为负的标量。有关更多信息,请参见L2正规化的算法部分trainingOptions在深入学习工具箱。

为了避免过度拟合与许多参数,当使用表示考虑增加L2RegularizationFactor选择。

例子:“L2RegularizationFactor”, 0.0005

计算设备用来执行深层神经网络操作如梯度计算,参数更新和预测在训练。它被指定为“cpu”“图形”

“图形”选择需要并行计算工具箱和CUDA™软件®使英伟达®GPU。支持gpu看到更多的信息万博1manbetxGPU的万博1manbetx支持版本(并行计算工具箱)

您可以使用gpuDevice(并行计算工具箱)查询或选择一个当地的GPU设备使用MATLAB®

请注意

培训或模拟一个代理在GPU包括特定于设备的数值圆滑的错误。这些错误可以产生不同的结果相比CPU执行相同的操作。

请注意,如果您想要使用并行处理加速训练,你不需要设置UseDevice。相反,当训练你的代理,使用一个rlTrainingOptions对象的UseParallel选项设置为真正的。关于培训的更多信息使用多核处理器和gpu培训,明白了培训代理商使用并行计算和gpu

例子:“UseDevice”、“gpu”

对象的功能

rlValueRepresentation 评论家表示值函数强化学习代理
rlQValueRepresentation 强化学习代理核反应能量函数评论家表示
rlDeterministicActorRepresentation 强化学习代理确定的演员表示
rlStochasticActorRepresentation 强化学习代理随机演员表示

例子

全部折叠

创建一个选项设置为创建一个评论家或演员表示强化学习代理。设置的学习速率表示为0.05,并设置梯度阈值为1。你可以设置的选项使用名称、值对任何选项,当您创建选项集。你不显式地设置默认值。

repOpts = rlRepresentationOptions (“LearnRate”5飞行,“GradientThreshold”,1)
repOpts = rlRepresentationOptions属性:LearnRate: 0.0500 GradientThreshold: 1 GradientThresholdMethod:“l2norm”L2RegularizationFactor: 1.0000 e-04 UseDevice:“cpu”优化器:“亚当”OptimizerParameters: [1 x1 rl.option.OptimizerParameters]

另外,创建一个默认的选项设置和使用点符号改变的一些值。

repOpts = rlRepresentationOptions;repOpts。learnRate = 5e-2; repOpts.GradientThreshold = 1
repOpts = rlRepresentationOptions属性:LearnRate: 0.0500 GradientThreshold: 1 GradientThresholdMethod:“l2norm”L2RegularizationFactor: 1.0000 e-04 UseDevice:“cpu”优化器:“亚当”OptimizerParameters: [1 x1 rl.option.OptimizerParameters]

如果你想改变的属性OptimizerParameters选项,使用点符号来访问它们。

repOpts.OptimizerParameters。ε= 1 e;repOpts.OptimizerParameters
ans = OptimizerParameters属性:动力:“不适用”ε:1.0000 e-07 GradientDecayFactor: 0.9000 SquaredGradientDecayFactor: 0.9990
介绍了R2019a