rlTable

值表或Q表

描述

值表和Q表是代表评论家网络的强化学习的一种方式。值表存储一组有限的观察奖励。Q表存储了相应的有限观察,动作对奖励。

一种使用创建一个值函数表示rlTable对象,使用rlValueRepresentationrlQValueRepresentation对象。

创建

描述

Ť= rlTable(obsinfo创建针对给定的离散一观测值表。

Ť= rlTable(obsinfoactinfo会为给定的离散观察和操作的问表。

输入参数

展开全部

观察说明书中,指定为rlFiniteSetSpec对象。

动作规范,指定为rlFiniteSetSpec对象。

属性

展开全部

奖励表,作为一个数组返回。什么时候是:

  • 值表,它包含ñØ行,其中ñØ是有限的观测值的数目。

  • 问表,它包含ñØñ一个列,其中ñ一个是可能的有限的动作的数目。

对象函数

rlValueRepresentation 为强化学习代理商的价值功能评论家表示
rlQValueRepresentation 为强化学习代理的Q值函数评论家表示

例子

全部收缩

这个例子说明如何使用rlTable创建值表。您可以使用这样一个表来表示具有有限观察空间的actor-批评家代理的批评家。

创建一个环境接口,并获得其观察指标。

ENV = rlPredefinedEnv(“BasicGridWorld”);obsInfo = getObservationInfo(ENV)
obsInfo = rlFiniteSetSpec与性质:元素:[25×双]名称: “MDP观察” 描述:[为0x0字符串]尺寸:[1 1]数据类型: “双”

创建使用观测规范值表。

V表= rlTable(obsInfo)
V表= rlTable与特性:表:[25×双]

这个例子说明如何使用rlTable创建问答表。这样的表可以被用来表示具有有限观察和作用空间的剂的演员或评论家。

创建一个环境接口,并获得其观察和操作规范。

ENV = rlMDPEnv(createMDP(8,[“涨”;“下”]));obsInfo = getObservationInfo(ENV)
obsInfo = rlFiniteSetSpec与性质:元素:[8X1双]名称: “MDP观察” 描述:[为0x0字符串]尺寸:[1 1]数据类型: “双”
actInfo = getActionInfo(ENV)
actInfo = rlFiniteSetSpec与性质:元素:[2×1双]名称: “MDP操作” 描述:[为0x0字符串]尺寸:[1 1]数据类型: “双”

创建使用观察和行动规范问表。

qTable = rlTable(obsInfo,actInfo)
qTable = rlTable与特性:表:[8X2双]

也可以看看

介绍了在R2019a