RL试剂

强化学习代理

图书馆：
强化学习工具箱

描述

使用RL试剂在Simulink中模拟和训练强化学习代理的块万博1manbetx^®。将块与存储在MATLAB中的代理关联^®工作区或数据字典作为代理对象，例如拉卡金特或RLDDPG试剂对象连接块，使其接收观察和计算的奖励。例如，考虑下面的框图RLSimplePendulmodel模型

这个观察的输入端口RL试剂块接收从摆锤的瞬时角度和角速度导出的信号。这个奖励端口接收根据相同的两个值和应用的操作计算的奖励。您可以配置适合您的系统的观察和奖励计算。

块使用代理根据您提供的观察和奖励生成操作。连接行动将输出端口连接到系统的相应输入RLSimplePendulmodel这个行动端口是应用于摆锤系统的扭矩。有关此模型的详细信息，请参见培训DQN代理摆动并平衡摆锤.

要在Simulink中训练强化学习代理，需要从Simulink模型生成一个环境。然后创万博1manbetx建并配置代理，以便针对该环境进行培训。有关详细信息，请参阅创建Simul万博1manbetxink强化学习环境. 当你打电话的时候火车利用环境，火车模拟模型并更新与块关联的代理。

港口

输入

全部展开

`观察`-环境观测
标量|向量|非虚拟总线

该端口接收来自环境的观测信号。观测信号表示测量值或其他瞬时系统数据。如果有多个观测值，可以使用多路复用器块将它们组合成矢量信号。要使用非虚拟总线信号，请使用bus2RLSpec.

`奖励`-环境奖励
标量

此端口接收奖励信号，您根据观察数据计算奖励信号。奖励信号在代理培训期间使用，以最大化对长期奖励的期望。

`伊斯通`-终止情节模拟的标志
必然的

使用此信号指定终止训练集的条件。您必须配置适合您的系统的逻辑，以确定事件终止的条件。一个应用是终止一个明显进展顺利或进展不佳的插曲。例如，如果代理达到其目标或无法恢复地远离其目标，则可以终止一集。

`外部作用`-外部动作信号
标量向量

使用此信号向块提供外部动作。该信号可以是人类专家的控制动作，可用于安全或模拟学习应用。当使用外部动作信号是1.，通过外部作用通过网络向环境发送信号行动块输出。该块还使用外部操作根据结果观察和奖励更新代理策略。

依赖关系

要启用此端口，请选择为外部动作信号添加输入端口参数

`使用外部动作`-使用外部动作信号
`0`|`1.`

使用此信号传递信号外部作用向环境发出信号。

当使用外部动作信号是1.这个街区经过一个街区外部作用向环境发出信号。该块还使用外部操作更新代理策略。

当使用外部动作信号是0这个街区没有穿过马路外部作用向环境发送信号，不使用外部操作更新策略。相反，来自块的操作使用来自代理策略的操作。

依赖关系

要启用此端口，请选择为外部动作信号添加输入端口参数

输出

全部展开

`行动`-代理行为
标量|向量|非虚拟总线

由代理基于观察和奖励输入计算的操作。将此端口连接到系统的输入端。要使用非虚拟总线信号，请使用bus2RLSpec.

笔记

当代理，如拉卡金特,rlPGAgent或RLP发泡剂使用随机表示如果参与者具有连续的操作空间，则代理不会强制执行操作规范设置的约束。在这些情况下，必须在环境中强制执行操作空间约束。

`累积报酬`-总报酬
标量向量

模拟过程中奖励信号的累积和。观察或记录此信号，以跟踪累积奖励随时间的演变。

依赖关系

要启用此端口，请选择提供累积奖励信号参数

参数

全部展开

`代理对象`-培训代理人
`代理人`（默认）|代理对象

输入存储在MATLAB工作区或数据字典中的代理对象的名称，例如拉卡金特或RLDDPG试剂对象有关代理对象的信息，请参见强化学习代理.

程序化使用

块参数：代理人

类型：字符串，字符向量

违约：“agentObj”

`提供累积奖励信号`-添加累积奖励输出端口
`关`（默认）|`在…上`

启用累积报酬通过选择此参数阻止输出。

程序化使用

块参数：ProvideCumRwd

类型：字符串，字符向量

价值观：“关”,“关于”

违约：“关”

`为外部动作信号添加输入端口`-为外部操作添加输入端口
`关`（默认）|`在…上`

启用外部作用和使用外部动作通过选择此参数阻止输入端口。

程序化使用

块参数：外部操作输入

类型：字符串，字符向量

价值观：“关”,“关于”

违约：“关”

范例

培训DQN代理摆动并平衡摆锤

训练深度Q网络代理来平衡Simulink中建模的钟摆。万博1manbetx

训练DDPG代理摆动并平衡摆锤

训练一个深度确定的策略梯度代理来平衡Simulink中建模的钟摆。万博1manbetx

另见

bus2RLSpec|createIntegratedEnv

话题

在R2019a中引入

RL试剂

描述

港口