rlsarsaagent

SARSA加固学习代理

在页面中扩展全部

描述

SARSA算法是一种无模型的在线，式增强学习方法。SARSA代理人是一种基于价值的增强式学习代理商，培训评论家以估计回报或将来的回报。

有关SARSA代理商的更多信息，请参阅SARSA代理商。

有关不同类型的强化学习代理的更多信息，请参见强化学习代理。

创建

句法

代理= rlsarsaagent（评论家，代理）

描述

例子

代理人= rlsarsaagent（评论家，，，，代理）使用指定的评论家网络创建SARSA代理，并设置代理财产。

输入参数

展开全部

`评论家`-评论家
`rlqvaluefunction`目的

评论家，被指定为rlqvaluefunction目的。有关创建评论家的更多信息，请参阅创建策略和价值功能。

特性

展开全部

`代理`-代理选项
`rlsarsaagentoptions`目的

代理选项，指定为rlsarsaagentoptions目的。

`UseSplorationPolicy`-选择使用空洞ation policy
`错误的`（默认）|`true`

选择探索策略时，选择操作（指定为以下逻辑值之一）。

错误的- 选择操作时使用代理贪婪策略。
true- 选择操作时使用代理探索策略。

`ObservationInfo`-观察规范
规范对象

This property is read-only.

观察规范，，，，specified as a reinforcement learning specification object defining properties such as dimensions, data type, and name of the observation signal.

The value ofObservationInfo匹配在评论家。

`ActionInfo`-动作规范
`rlfinitesetspec`目的

This property is read-only.

行动规范，指定为rlfinitesetspec目的。

The value ofActionInfo匹配在评论家。

`采样时间`-Sample time of agent
正标量|`-1`

试剂的样本时间，指定为正标量或AS-1。将此参数设置为-1允许基于事件的模拟。初始值采样时间匹配指定的值代理。

在模拟中万博1manbetx^®环境，RL Agent指定执行代理的块采样时间二秒的模拟时间。如果采样时间是-1，该块从其父母子系统继承了样本时间。

Within a MATLAB^®环境，每次环境前进时都会执行代理。在这种情况下，采样时间是the time interval between consecutive elements in the output experience returned bySIMor火车。如果采样时间是-1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时机。

对象功能

`火车`	在指定环境中训练加固学习代理
`SIM`	Simulate trained reinforcement learning agents within specified environment
`getAction`	Obtain action from agent or actor given environment observations
`getactor`	Get actor from reinforcement learning agent
`setActor`	加固学习代理人的演员
`GetCritic`	从加强学习者那里获取评论家
`setcritic`	设定加强学习者的批评家
`生成PolicyFunction`	Create function that evaluates trained policy of reinforcement learning agent

例子

全部收缩

创建SARSA代理

Open Live Script

创建或加载环境接口。对于此示例，加载基本网格世界环境界面也在示例中使用Train Reinforcement Learning Agent in Basic Grid World。

env = rlpredefinedenv（“ Basic Gridworld”）；

创建一个源自环境观察和动作规范的表近似模型。

qtable = rltable（...getObservationInfo(env),...getActionInfo（env））;

创建评论家QTable。SARSA代理商使用rlvaluefunction实施评论家的目的。

评论家= rlqvaluefunction（qtable，...getObservationInfo(env),...getActionInfo（env））;

使用指定的评论家和Epsilon值创建SARSA代理0.05。

opt = rlsarsaagentoptions;opt.epsilongreedyexploration.epsilon = 0.05;代理= rlsarsaagent（评论家，选择）

代理人= rlSARSAAgent with properties: AgentOptions: [1x1 rl.option.rlSARSAAgentOptions] UseExplorationPolicy: 0 ObservationInfo: [1x1 rl.util.rlFiniteSetSpec] ActionInfo: [1x1 rl.util.rlFiniteSetSpec] SampleTime: 1

要检查您的代理，请使用GetAction从随机观察中返回操作。

getAction（代理，{randi（25）}）

ans =1x1 cell array{[1]}

You can now test and train the agent against the environment.

版本历史记录

在R2019a中引入

也可以看看

rlsarsaagentoptions

rlsarsaagent

描述

创建

句法

描述

输入参数

评论家-评论家rlqvaluefunction目的

特性

代理-代理选项rlsarsaagentoptions目的

UseSplorationPolicy-选择使用空洞ation policy错误的（默认）|true

ObservationInfo-观察规范规范对象

ActionInfo-动作规范rlfinitesetspec目的

采样时间-Sample time of agent正标量|-1