rlTable

值表或Q表

全部展开页面

描述

值表和Q表是表示强化学习批判网络的一种方法。值表存储有限的观察结果的奖励。Q表存储相应的有限观察-行动对的奖励。

属性创建值函数表示形式rlTable对象,使用一个rlValueRepresentation或rlQValueRepresentation对象。

创建

语法

T = rlTable (obsinfo)

T = rlTable (obsinfo actinfo)

描述

例子

T= rlTable (obsinfo）为给定的离散观测创建值表。

例子

T= rlTable (obsinfo，actinfo）为给定的离散观察和操作创建一个Q表。

输入参数

全部展开

`obsinfo`- - - - - -观测规范
`rlFiniteSetSpec`对象

观察规范，指定为rlFiniteSetSpec对象。

`actinfo`- - - - - -操作规范
`rlFiniteSetSpec`对象

动作规范，指定为rlFiniteSetSpec对象。

属性

全部展开

`表格`- - - - - -奖励表
数组

奖励表，作为数组返回。当表格是一个:

值表，它包含N_O行,N_O为有限观测值的个数。
Q表，它包含N_O行和N_一个列,N_一个是可能的有限行为的数量。

对象的功能

`rlValueRepresentation`	强化学习主体的价值函数批判表示
`rlQValueRepresentation`	强化学习主体的q值函数批判表示

例子

全部折叠

创建值表

打开生活的脚本

这个例子展示了如何使用rlTable创建值表。您可以使用这样一个表来表示具有有限观察空间的演员-评论家代理的评论家。

创建环境接口，并获取其观察规范。

env = rlPredefinedEnv (“BasicGridWorld”）;obsInfo = getObservationInfo (env)

obsInfo = rlFiniteSetSpec with properties: Elements: [25x1 double] Name: "MDP Observations" Description: [0x0 string] Dimension: [1 1] DataType: "double"

使用观察规范创建值表。

vTable = rlTable (obsInfo)

vTable = rlTable with properties:

创建Q表

打开生活的脚本

这个例子展示了如何使用rlTable来创建一个Q表。这样的表格可以用来表示具有有限观察和行动空间的代理的行动者或批评者。

创建一个环境界面，并获取其观察和操作规范。

env = rlMDPEnv (createMDP (8,《飞屋环游记》；“向下”)));obsInfo = getObservationInfo (env)

obsInfo = rlFiniteSetSpec with properties: Elements: [8x1 double] Name: "MDP Observations" Description: [0x0 string] Dimension: [1 1] DataType: "double"

actInfo = getActionInfo (env)

属性:[2x1 double] Name: "MDP Actions" Description: [0x0 string] Dimension: [1 1] DataType: "double"

使用观察和操作规范创建Q表。

qTable = rlTable (obsInfo actInfo)

qTable = rlTable with properties:

另请参阅

主题

创建策略和价值功能表示

介绍了R2019a

强化学习工具箱文档

万博1manbetx

强化学习与MATLAB和Simulink万博1manbetx

下载电子书