rlValueRepresentation
(不推荐)值函数强化学习代理评论家表示
rlValueRepresentation
不推荐。使用rlValueFunction
代替。有关更多信息,请参见rlValueRepresentation不推荐。
描述
对象实现了价值函数的估计值作为一个评论家在强化学习代理。函数是一个函数映射一个观测值为一个标量值。输出代表预期的总长期奖励当代理开始从给定的观察和采取最好的措施。价值函数批评家因此只需要观察(但不是行动)作为输入。当你创建一个rlValueRepresentation
评论家,使用它来创建一个代理依靠价值函数评论家,如一个rlACAgent
,rlPGAgent
,或rlPPOAgent
。这个工作流程的一个例子,看到创建演员和评论家表示。创建表示更多的信息,请参阅创建政策和价值功能。
创建
语法
描述
创建基于价值函数评论家
= rlValueRepresentation (净
,observationInfo
“观察”,obsName
)评论家
从深层神经网络净
。这个语法设置ObservationInfo的属性评论家
输入observationInfo
。obsName
必须包含的输入层的名字吗净
。
创建基于价值函数评论家
= rlValueRepresentation (选项卡
,observationInfo
)评论家
与一个离散观测空间从表的价值选项卡
,这是一个rlTable
对象包含一个列数组和尽可能多的元素可能的观测。这个语法设置ObservationInfo的属性评论家
输入observationInfo
。
创建基于价值函数评论家
= rlValueRepresentation ({basisFcn
,W0
},observationInfo
)评论家
使用一个自定义的基函数作为潜在的估计值。第一个输入参数是一个两个元素细胞中第一个元素包含了处理basisFcn
一个自定义的基函数,第二个元素包含初始权向量W0
。这个语法设置ObservationInfo的属性评论家
输入observationInfo
。
创建基于价值函数评论家
= rlValueRepresentation (___,选项
)评论家
使用额外的选项集选项
,这是一个rlRepresentationOptions
对象。这个语法设置选项的属性评论家
到选项
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlACAgent |
Actor-critic强化学习代理 |
rlPGAgent |
政策梯度强化学习代理 |
rlPPOAgent |
近端政策优化强化学习代理 |
getValue |
获得估计价值从评论家给定环境的观察和行动 |