主要内容

rlsarsaagent.

Sarsa加强学习代理

描述

Sarsa算法是一种无模型,在线,策略的on-prodote加强学习方法。Sarsa代理是一家值得一位基于价值的加强学习代理,批评批评奖励或未来奖励。

有关萨拉代理商的更多信息,请参阅萨拉代表

有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人

创建

描述

例子

代理人= rlsarsaagent(评论家代理选项使用指定的批评网络创建Sarsa代理,并设置代理选项财产。

输入参数

展开全部

批评网络表示,指定为rlqvalueerepresentation目的。有关创建批评识别的更多信息,请参阅创建策略和值函数表示

特性

展开全部

代理选项,指定为rlsarsaagentoptions.目的。

对象功能

火车 在指定环境中列车加固学习代理
SIM 在指定环境中模拟培训的钢筋学习代理
努力 从代理商或演员代表获取行动给定环境观察
工作者 获取钢筋学习代理人的演员代表
setActor. 设置强化学习agent的行动者表示
透镜 获取钢筋学习代理人的批评奖学金
setcritic. 设定批评批评学习代理的代表
生成policyfunction. 创建评估强化学习机训练策略的函数

例子

全部收缩

创建或加载环境界面。对于此示例,请加载基本网格世界环境界面。

Env = Rlpredefinedenv(“basicgridworld”);

使用从环境观测和操作规范派生的Q表创建批评值函数表示。

qtable = rltable(getobservationInfo(env),getActionInfo(ENV));批评= rlqvaluerepresentation(qtable,getobservationinfo(env),getactioninfo(env));

使用指定的批评值函数和ePsilon值创建Sarsa代理0.05

选择= rlsarsaagentoptions;opt.epsilongredyexpliation.epsilon = 0.05;代理= rlsarsaagent(批评者,选择)
Agent = RlsArsaAgent具有属性:AgentOptions:[1x1 rl.option.rlsarsaagentoptions]

要检查您的代理,请使用GetAction从随机观察返回操作。

GetAction(代理,{RANDI(25)})
ans = 1

您现在可以测试并培训代理人反对环境。

在R2019A介绍