增强学习代理的价值函数批评表示
该对象实现了一个值函数逼近器,该逼近器将在增强学习代理中用作批评家。值函数是将观测值映射到标量值的函数。输出表示当代理从给定的观察开始并采取可能的最佳行动时,期望的总长期回报。因此,价值功能批评家只需要观察(而不是行动)作为输入。创建一个rlValueRepresentation
评论家,用它来创建代理依托值函数评论家,如rlACAgent
或rlPGAgent
。对于这个工作流程的一个例子,见创建演员和评论家的表示。有关创建表示的更多信息,请参见创建策略和值函数表示。
创建基于值函数的评论家
= rlValueRepresentation(净
,observationInfo
“观察”,obsName
)评论家
来自深度神经网络净
。这句法设置ObservationInfo财产评论家
输入observationInfo
。obsName
必须包含的输入层的名称净
。
创建基于值函数的评论家
= rlValueRepresentation(选项卡
,observationInfo
)评论家
与一个离散观测空间,来自值表选项卡
,这是一个rlTable
对象包含柱阵列一样多的元素的可能观测。这句法设置ObservationInfo财产评论家
输入observationInfo
。
创建基于值函数的评论家
= rlValueRepresentation ({basisFcn
,W0
},observationInfo
)评论家
使用自定义的基函数作为底层逼近。的第一个输入参数是一个两元件单元,其中所述第一元件包含所述手柄basisFcn
到自定义的基函数,并且所述第二元件包含初始权重向量W0
。这句法设置ObservationInfo财产评论家
输入observationInfo
。
创建基于值函数的评论家
= rlValueRepresentation(___,选项
)评论家
使用附加选项设置选项
,这是一个rlRepresentationOptions
对象。这句法设置选项财产评论家
到选项
输入参数。您可以将此语法用于前面的任何输入-参数组合。
rlACAgent |
演员,评论家强化学习代理 |
rlPGAgent |
策略梯度强化学习代理 |
rlPPOAgent |
近端政策优化强化学习代理 |
getValue |
得到估计值函数表示 |