主要内容

rlTable

值表或Q表

描述

值表和Q表是表示强化学习批判网络的一种方法。值表存储有限的观察结果的奖励。Q表存储相应的有限观察-行动对的奖励。

属性创建值函数表示形式rlTable对象,使用一个rlValueRepresentationrlQValueRepresentation对象。

创建

描述

例子

T= rlTable (obsinfo为给定的离散观测创建值表。

例子

T= rlTable (obsinfoactinfo为给定的离散观察和操作创建一个Q表。

输入参数

全部展开

观察规范,指定为rlFiniteSetSpec对象。

动作规范,指定为rlFiniteSetSpec对象。

属性

全部展开

奖励表,作为数组返回。当表格是一个:

  • 值表,它包含NO行,NO为有限观测值的个数。

  • Q表,它包含NO行和N一个列,N一个是可能的有限行为的数量。

对象的功能

rlValueRepresentation 强化学习主体的价值函数批判表示
rlQValueRepresentation 强化学习主体的q值函数批判表示

例子

全部折叠

这个例子展示了如何使用rlTable创建值表。您可以使用这样一个表来表示具有有限观察空间的演员-评论家代理的评论家。

创建环境接口,并获取其观察规范。

env = rlPredefinedEnv (“BasicGridWorld”);obsInfo = getObservationInfo (env)
obsInfo = rlFiniteSetSpec with properties: Elements: [25x1 double] Name: "MDP Observations" Description: [0x0 string] Dimension: [1 1] DataType: "double"

使用观察规范创建值表。

vTable = rlTable (obsInfo)
vTable = rlTable with properties:

这个例子展示了如何使用rlTable来创建一个Q表。这样的表格可以用来表示具有有限观察和行动空间的代理的行动者或批评者。

创建一个环境界面,并获取其观察和操作规范。

env = rlMDPEnv (createMDP (8,《飞屋环游记》“向下”)));obsInfo = getObservationInfo (env)
obsInfo = rlFiniteSetSpec with properties: Elements: [8x1 double] Name: "MDP Observations" Description: [0x0 string] Dimension: [1 1] DataType: "double"
actInfo = getActionInfo (env)
属性:[2x1 double] Name: "MDP Actions" Description: [0x0 string] Dimension: [1 1] DataType: "double"

使用观察和操作规范创建Q表。

qTable = rlTable (obsInfo actInfo)
qTable = rlTable with properties:

另请参阅

介绍了R2019a