文档帮助中心文档
用于强化学习代理商的选项(批评者和演员)
使用rlRepresentationOptions对象来指定一个选项集(rlValueRepresentation,rlQValueRepresentation)演员(决定论呈现,rlstochastorrepresentation)。
rlRepresentationOptions
rlValueRepresentation
rlQValueRepresentation
决定论呈现
rlstochastorrepresentation
Repopts = rlrepresentationOptions.
repOpts=rlRepresentationOptions(名称、值)
实例
重新追索=rlRepresentationOptions创建默认选项设置以在创建强化学习演员或评论家时用作最后一个参数。您可以使用点表示法修改对象属性。
重新追索=rlRepresentationOptions
重新追索
重新追索= rlrepresentationOptions(名称,价值)创建具有指定属性的选项集性质使用一个或多个名称-值对参数。
重新追索= rlrepresentationOptions(名称,价值)
名称,价值
展开全部
学习
0.01
表示的学习速率,指定为正标量。如果学习率太低,那么培训需要很长时间。如果学习率太高,那么训练可能会达到次优结果或出现分歧。
例子:'学习',0.025
'学习',0.025
优化器
“亚当”
“SGDM”
“rmsprop”
用于训练表示网络的优化器,指定为以下值之一。
“亚当”-使用Adam优化器。您可以使用梯度Dayfactor.和平方半径衰减因子田野优化参数选项。
梯度Dayfactor.
平方半径衰减因子
优化参数
“SGDM”- 使用动量(SGDM)优化器的随机梯度下降。您可以使用使用的势头推进力领域优化参数选项。
推进力
“rmsprop”-使用RMSProp优化器。您可以使用平方半径衰减因子田野优化参数选项。
有关这些优化器的更多信息,请参阅随机梯度下降法在算法部分培训选项在深度学习工具箱中™.
培训选项
例子:'优化器',“SGDM”
'优化器',“SGDM”
优化器的适用参数,指定为一个优化参数对象具有以下参数。
前一步的贡献指定为标量为0到1.值为0表示从前一步没有贡献。值1表示最大贡献。
此参数仅在以下情况下适用:优化器是“SGDM”。在这种情况下,默认值为0.9。此默认值适用于大多数问题。
ε
偏移量偏移,指定为正标量。优化器将此偏移量添加到网络参数更新中的分母,以避免分割零。
此参数仅在以下情况下适用:优化器是“亚当”或“rmsprop”。在这种情况下,默认值为10–8。此默认值适用于大多数问题。
梯度移动平均的衰减率,指定为从0到1的正标量。
此参数仅在以下情况下适用:优化器是“亚当”。在这种情况下,默认值为0.9。此默认值适用于大多数问题。
平方梯度移动平均的衰减率,指定为从0到1的正标量。
此参数仅在以下情况下适用:优化器是“亚当”或“rmsprop”.在这种情况下,默认值为0.999。此默认值适用于大多数问题。
当一个特定的财产优化参数不适用于所指定的优化器类型优化器选项,该属性设置为“不适用”.
“不适用”
要更改默认值,请创建一个rlRepresentationOptions设置并使用点表示法来访问和更改优化参数.
repOpts=rlRepresentationOptions;repOpts.OptimizerParameters.GradientDecayFactor=0.95;
梯度阈值
INF.
表示梯度的阈值,指定为INF.或正标量。如果梯度超过此值,则按照指定剪切梯度梯度阈值法选项。剪切梯度限制网络参数在训练迭代中的变化程度。
梯度阈值法
例子:“梯度阈值”,1
“梯度阈值”,1
“l2norm”
“全局l2norm”
“绝对值”
用于剪辑超过梯度阈值的梯度值的梯度阈值方法,指定为以下值之一。
“l2norm”-如果L2.可学习参数的梯度范数大于梯度阈值,然后缩放渐变,使L2.规范等于梯度阈值.
“全局l2norm”- 如果是全球性的L2.规范,L,大于梯度阈值,然后将所有梯度缩放到一个因素梯度阈值/L.全球L2.规范考虑所有可学习的参数。
梯度阈值/
“绝对值”-如果可学习参数梯度中单个偏导数的绝对值大于梯度阈值,然后缩放部分导数以具有等于的幅度梯度阈值保留偏导数的符号。
有关更多信息,请参阅渐变剪裁在算法部分培训选项在深度学习工具箱中。
例子:“GradientThresholdMethod”,“绝对值”
“GradientThresholdMethod”,“绝对值”
L2调节因子
因素L2.正则化(权重衰减),指定为非负标量。有关详细信息,请参阅L2正则化在算法部分培训选项在深度学习工具箱中。
为了避免使用与许多参数的表示时,请考虑增加L2调节因子选项。
例子:“L2调节系数”,0.0005
“L2调节系数”,0.0005
umussevice.
“cpu”
“gpu”
用于执行深度神经网络操作的计算设备,例如培训期间的梯度计算,参数更新和预测。它是指定的“cpu”或“gpu”.
这个“gpu”该选项需要两个并行计算工具箱™ 软件和CUDA®启用nvidia.®GPU。有关支持的GPU的更多信息,请参阅万博1manbetxGPU通万博1manbetx过发布支持(并行计算工具箱).
您可以使用GPudevice.(并行计算工具箱)查询或选择要与MATLAB一起使用的本地GPU设备®.
GPudevice.
笔记
培训或模拟GPU上的代理涉及设备特定的数值舍入错误。与执行相同的操作相比,这些错误可以产生不同的结果。
请注意,如果要使用并行处理来加速训练,则不需要设置umussevice.. 相反,在培训代理时,请使用rltringOptions.对象,其中使用指α.选项设置为真的. 有关使用多核处理器和GPU进行培训的更多信息,请参阅使用并行计算和GPU的火车代理.
rltringOptions.
使用指α.
真的
例子:“使用设备”,“gpu”
“使用设备”,“gpu”
全部收缩
创建用于为强化学习代理创建批评家或参与者表示的选项集。将表示的学习速率设置为0.05,并将渐变阈值设置为1。创建选项集时,可以使用名称、值对设置选项。未显式设置的任何选项都有其默认值。
repOpts=rlRepresentationOptions(“LearnRate”,5e-2,...'gradientthreshold'1)
repOpts=rlRepresentationOptions,属性:LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod:“l2norm”L2调节因子:1.0000e-04使用设备:“cpu”优化器:“adam”优化器参数:[1x1 rl.option.OptimizerParameters]
或者,创建默认选项集并使用点表示法来更改一些值。
Repopts = rlrepresentationOptions;Repopts.Learnrate = 5e-2;repopts.gradientthreshold = 1
如果要更改属性优化参数选项,使用点符号访问它们。
repOpts.OptimizerParameters.Epsilon=1e-7;repOpts.OptimizerParameters
ANS = OptimizerParameters具有属性:动量:“不适用”epsilon:1.0000E-07 GradientDecayfactor:0.9000 SquaredgradientDecayfactor:0.9990
是否需要修改电子就业协议的版本?是否需要修改电子就业协议?
与MATLAB公司通信的客户:
ejecute el comandoinsuciéndoloen la Ventana de comandos de matlab。los navegadores网站没有adminiten comandos de matlab。
选择一个网站以获取可用的翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区站点不适合您所在位置的访问。
联系您当地的办公室