rlValueRepresentation
(不推荐)强化学习代理的值函数批评表示
rlValueRepresentation
不推荐。使用rlValueFunction
代替。有关更多信息,请参见不建议使用rlValueRepresentation.
描述
该对象实现了一个值函数近似器,用于作为强化学习代理中的一个批评家。值函数是将观察值映射到标量值的函数。当行为主体从给定的观察开始并采取最佳的可能行动时,输出代表预期的总长期回报。因此,价值函数批评家只需要观察(而不是行动)作为输入。创建一个rlValueRepresentation
批评家,使用它来创建依赖于价值函数批评家的代理,例如rlACAgent
,rlPGAgent
,或rlPPOAgent
.有关此工作流的示例,请参见创建演员和评论家的表现.有关创建表示的更多信息,请参见创建政策和价值功能.
创建
语法
描述
创建基于函数的价值评论家
= rlValueRepresentation (网
,observationInfo
“观察”,obsName
)评论家
来自深度神经网络网
.此语法设置ObservationInfo的属性评论家
到输入observationInfo
.obsName
必须包含输入层的名称网
.
创建基于函数的价值评论家
= rlValueRepresentation (选项卡
,observationInfo
)评论家
与一个离散观测空间,从值表中选项卡
,这是一个rlTable
对象,该对象包含具有尽可能多的观察值的列数组。此语法设置ObservationInfo的属性评论家
到输入observationInfo
.
创建基于函数的价值评论家
= rlValueRepresentation ({basisFcn
,W0
},observationInfo
)评论家
使用自定义基函数作为基础逼近器。第一个输入参数是一个双元素单元格,其中第一个元素包含句柄basisFcn
到一个自定义基函数,第二个元素包含初始权向量W0
.此语法设置ObservationInfo的属性评论家
到输入observationInfo
.
创建基于函数的价值评论家
= rlValueRepresentation (___,选项
)评论家
使用附加选项集选项
,这是一个rlRepresentationOptions
对象。此语法设置选项的属性评论家
到选项
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlACAgent |
行动者-批评家强化学习代理 |
rlPGAgent |
政策梯度强化学习代理 |
rlPPOAgent |
近端策略优化强化学习代理 |
getValue |
从评论家的环境观察和行动中获得估计的价值 |