RL代理

强化学习代理

库:
强化学习工具箱

描述

使用RL代理块来模拟和训练强化学习代理模型万博1manbetx^®。你把块与一个代理存储在MATLAB中^®工作区或一个数据字典作为一个代理对象,如一个rlACAgent或rlDDPGAgent对象。你连接块,它接收一个观察和计算奖励。例如,考虑下面的框图rlSimplePendulumModel模型。

的观察输入端口的RL代理块接收信号来源于瞬时摆角和角速度。的奖励端口接收来自相同的两个值奖励计算和应用行动。配置合适的观察和奖励计算您的系统。

块使用代理来生成一个基于您提供的观察和奖励的行动。连接行动输出端口到适当的输入系统。例如,在rlSimplePendulumModel,行动港口是一个扭矩应用于摆系统。关于这个模型的更多信息,参见火车DQN代理和平衡摆摆动。

在模型训练强化学习代理,你从模型生成一个环境模型。万博1manbetx然后您创建和配置代理对环境培训。有关更多信息,请参见创建模型强化学万博1manbetx习环境。当你打电话火车使用环境,火车模拟模型和更新相关的代理。

港口

输入

全部展开

`观察`——环境观测
标量矢量| | nonvirtual总线

这个端口接收观测信号的环境。观察信号代表或其他瞬时测量系统数据。如果你有多个观测数据,您可以使用一个Mux块合并成一个向量信号。使用nonvirtual总线信号,使用bus2RLSpec。

`奖励`——奖励从环境
标量

这个端口接收奖励信号,计算基于观测数据。奖励信号期间使用代理培训最大化长期回报的期望。

`结束`——国旗终止事件模拟
逻辑

使用这个信号来指定条件终止训练集。您必须配置逻辑适合您的系统来确定事件终止的条件。一个应用程序终止一集显然是顺利或者不佳。例如,你可以终止一集如果代理达到目标或不能收回的远离它的目标。

`对外行动`——外部动作信号
标量|向量

使用这个信号提供一个外部行动。这个信号可以控制动作从人类专家,可用于安全或模仿学习应用程序。当的值使用外部行动信号是1,通过了对外行动通过信号的环境行动块的输出。块也使用外部操作以更新代理基于结果的观察和奖励政策。

依赖关系

要启用这个端口,选择增加港口外部动作信号参数。

`使用外部行动`使用外部行动信号
`0`|`1`

通过使用这个信号对外行动信号环境。

当的值使用外部行动信号是1块传递对外行动信号环境。块也使用外部操作以更新代理政策。

当的值使用外部行动信号是0块不及格对外行动信号环境和不更新使用外部的政策行动。相反,行动阻止使用行动代理政策。

依赖关系

要启用这个端口,选择增加港口外部动作信号参数。

输出

全部展开

`行动`——代理操作
标量矢量| | nonvirtual总线

行动计算代理基于观察和奖励的输入。连接这个端口的输入系统。使用nonvirtual总线信号,使用bus2RLSpec。

请注意

当代理等rlACAgent,rlPGAgent,或rlPPOAgent使用一个rlStochasticActorRepresentation演员和一个持续的行动空间,约束行动规范并不强制设定的代理。在这些情况下,您必须执行行动空间中约束环境。

`累积奖励`——总奖励
标量|向量

在模拟累积奖赏信号之和。观察或日志这个信号跟踪累计奖励的发展随着时间的推移。

依赖关系

要启用这个端口,选择提供累积奖赏信号参数。

参数

全部展开

`代理对象`——代理培训
`代理`(默认)|代理对象

输入一个代理对象的名称存储在MATLAB工作区或一个数据字典,如一个rlACAgent或rlDDPGAgent对象。关于代理对象的信息,请参阅强化学习代理。

编程使用

块参数:代理

类型:字符串,特征向量

默认值:“agentObj”

`提供累积奖赏信号`——添加累积奖励输出端口
`从`(默认)|`在`

启用累积奖励通过选择该参数块输出。

编程使用

块参数:ProvideCumRwd

类型:字符串,特征向量

价值观:“关闭”,“上”

默认值:“关闭”

`增加港口外部动作信号`——添加输入端口对外行动
`从`(默认)|`在`

启用对外行动和使用外部行动通过选择该参数块输入端口。

编程使用

块参数:ExternalActionAsInput

类型:字符串,特征向量

价值观:“关闭”,“上”

默认值:“关闭”

模型的例子

火车DQN代理和平衡摆摆动

火车深Q-network代理来平衡一个钟摆在仿真软件建模。万博1manbetx

火车DDPG代理和平衡摆摆动

火车深决定性策略梯度代理来平衡一个钟摆在仿真软件建模。万博1manbetx

另请参阅

bus2RLSpec|createIntegratedEnv

主题

介绍了R2019a

RL代理

描述

港口