值表或Q表
值表和Q表是表示强化学习批判网络的一种方法。值表存储有限的观察结果的奖励。Q表存储相应的有限观察-行动对的奖励。
属性创建值函数表示形式rlTable
对象,使用一个rlValueRepresentation
或rlQValueRepresentation
对象。
rlValueRepresentation |
强化学习主体的价值函数批判表示 |
rlQValueRepresentation |
强化学习主体的q值函数批判表示 |