rlsarsaagent.

Sarsa加强学习代理

展开所有页面

描述

Sarsa算法是一种无模型，在线，策略的on-prodote加强学习方法。Sarsa代理是一家值得一位基于价值的加强学习代理，批评批评奖励或未来奖励。

有关萨拉代理商的更多信息，请参阅萨拉代表。

有关不同类型的强化学习代理商的更多信息，请参阅加固学习代理人。

创建

句法

代理= rlsarsaagent（批评者，代理选修）

描述

例子

代理人= rlsarsaagent（评论家那代理选项）使用指定的批评网络创建Sarsa代理，并设置代理选项财产。

输入参数

展开全部

`评论家`-评论家表示网络
`rlqvalueerepresentation`目的

批评网络表示，指定为rlqvalueerepresentation目的。有关创建批评识别的更多信息，请参阅创建策略和值函数表示。

特性

展开全部

`代理选项`-代理选项
`rlsarsaagentoptions.`目的

代理选项，指定为rlsarsaagentoptions.目的。

对象功能

`火车`	在指定环境中列车加固学习代理
`SIM`	在指定环境中模拟培训的钢筋学习代理
`努力`	从代理商或演员代表获取行动给定环境观察
`工作者`	获取钢筋学习代理人的演员代表
`setActor.`	设置强化学习agent的行动者表示
`透镜`	获取钢筋学习代理人的批评奖学金
`setcritic.`	设定批评批评学习代理的代表
`生成policyfunction.`	创建评估强化学习机训练策略的函数

例子

全部收缩

创建萨拉代表

打开直播脚本

创建或加载环境界面。对于此示例，请加载基本网格世界环境界面。

Env = Rlpredefinedenv（“basicgridworld”）;

使用从环境观测和操作规范派生的Q表创建批评值函数表示。

qtable = rltable（getobservationInfo（env），getActionInfo（ENV））;批评= rlqvaluerepresentation（qtable，getobservationinfo（env），getactioninfo（env））;

使用指定的批评值函数和ePsilon值创建Sarsa代理0.05。

选择= rlsarsaagentoptions;opt.epsilongredyexpliation.epsilon = 0.05;代理= rlsarsaagent（批评者，选择）

Agent = RlsArsaAgent具有属性：AgentOptions：[1x1 rl.option.rlsarsaagentoptions]

要检查您的代理，请使用GetAction从随机观察返回操作。

GetAction（代理，{RANDI（25）}）

ans = 1

您现在可以测试并培训代理人反对环境。

也可以看看

rlsarsaagentoptions.

话题

在R2019A介绍

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

下载电子书