rlTable

值表或Q表

扩大所有页面

描述

值表和Q表是代表评论家网络的强化学习的一种方式。值表存储一组有限的观察奖励。Q表存储了相应的有限观察，动作对奖励。

一种使用创建一个值函数表示rlTable对象，使用rlValueRepresentation或rlQValueRepresentation对象。

创建

句法

T = rlTable（obsinfo）

T = rlTable（obsinfo，actinfo）

描述

例

Ť= rlTable（obsinfo）创建针对给定的离散一观测值表。

例

Ť= rlTable（obsinfo，actinfo）会为给定的离散观察和操作的问表。

输入参数

展开全部

`obsinfo`-观测规范
`rlFiniteSetSpec`宾语

观察说明书中，指定为rlFiniteSetSpec对象。

`actinfo`-动作规范
`rlFiniteSetSpec`宾语

动作规范，指定为rlFiniteSetSpec对象。

属性

展开全部

`表`-奖励表
数组

奖励表，作为一个数组返回。什么时候表是：

值表，它包含ñ_Ø行，其中ñ_Ø是有限的观测值的数目。
问表，它包含ñ_Ø行ñ_一个列，其中ñ_一个是可能的有限的动作的数目。

对象函数

`rlValueRepresentation`	为强化学习代理商的价值功能评论家表示
`rlQValueRepresentation`	为强化学习代理的Q值函数评论家表示

例子

全部收缩

创建值表

开立真实脚本

这个例子说明如何使用rlTable创建值表。您可以使用这样一个表来表示具有有限观察空间的actor-批评家代理的批评家。

创建一个环境接口，并获得其观察指标。

ENV = rlPredefinedEnv（“BasicGridWorld”）;obsInfo = getObservationInfo（ENV）

obsInfo = rlFiniteSetSpec与性质：元素：[25×双]名称： “MDP观察” 描述：[为0x0字符串]尺寸：[1 1]数据类型： “双”

创建使用观测规范值表。

V表= rlTable（obsInfo）

V表= rlTable与特性：表：[25×双]

创建问答表

开立真实脚本

这个例子说明如何使用rlTable创建问答表。这样的表可以被用来表示具有有限观察和作用空间的剂的演员或评论家。

创建一个环境接口，并获得其观察和操作规范。

ENV = rlMDPEnv（createMDP（8，[“涨”;“下”]））;obsInfo = getObservationInfo（ENV）

obsInfo = rlFiniteSetSpec与性质：元素：[8X1双]名称： “MDP观察” 描述：[为0x0字符串]尺寸：[1 1]数据类型： “双”

actInfo = getActionInfo（ENV）

actInfo = rlFiniteSetSpec与性质：元素：[2×1双]名称： “MDP操作” 描述：[为0x0字符串]尺寸：[1 1]数据类型： “双”

创建使用观察和行动规范问表。

qTable = rlTable（obsInfo，actInfo）

qTable = rlTable与特性：表：[8X2双]

也可以看看

主题

创建策略和价值功能交涉

介绍了在R2019a

强化学习工具箱文档

万博1manbetx

尝试MATLAB，Sim万博1manbetxulink和其他产品s manbetx 845

现在就试用