主要内容

RL代理

强化学习代理

  • 库:
  • 强化学习工具箱

  • RL代理块

描述

使用RL代理块来模拟和训练强化学习代理模型万博1manbetx®。你把块与一个代理存储在MATLAB中®工作区或一个数据字典作为一个代理对象,如一个rlACAgentrlDDPGAgent对象。你连接块,它接收一个观察和计算奖励。例如,考虑下面的框图rlSimplePendulumModel模型。

观察输入端口的RL代理块接收信号来源于瞬时摆角和角速度。的奖励端口接收来自相同的两个值奖励计算和应用行动。配置合适的观察和奖励计算您的系统。

块使用代理来生成一个基于您提供的观察和奖励的行动。连接行动输出端口到适当的输入系统。例如,在rlSimplePendulumModel,行动港口是一个扭矩应用于摆系统。关于这个模型的更多信息,参见火车DQN代理和平衡摆摆动

在模型训练强化学习代理,你从模型生成一个环境模型。万博1manbetx然后您创建和配置代理对环境培训。有关更多信息,请参见创建模型强化学万博1manbetx习环境。当你打电话火车使用环境,火车模拟模型和更新相关的代理。

港口

输入

全部展开

这个端口接收观测信号的环境。观察信号代表或其他瞬时测量系统数据。如果你有多个观测数据,您可以使用一个Mux块合并成一个向量信号。使用nonvirtual总线信号,使用bus2RLSpec

这个端口接收奖励信号,计算基于观测数据。奖励信号期间使用代理培训最大化长期回报的期望。

使用这个信号来指定条件终止训练集。您必须配置逻辑适合您的系统来确定事件终止的条件。一个应用程序终止一集显然是顺利或者不佳。例如,你可以终止一集如果代理达到目标或不能收回的远离它的目标。

使用这个信号提供一个外部行动。这个信号可以控制动作从人类专家,可用于安全或模仿学习应用程序。当的值使用外部行动信号是1,通过了对外行动通过信号的环境行动块的输出。块也使用外部操作以更新代理基于结果的观察和奖励政策。

依赖关系

要启用这个端口,选择增加港口外部动作信号参数。

通过使用这个信号对外行动信号环境。

当的值使用外部行动信号是1块传递对外行动信号环境。块也使用外部操作以更新代理政策。

当的值使用外部行动信号是0块不及格对外行动信号环境和不更新使用外部的政策行动。相反,行动阻止使用行动代理政策。

依赖关系

要启用这个端口,选择增加港口外部动作信号参数。

输出

全部展开

行动计算代理基于观察和奖励的输入。连接这个端口的输入系统。使用nonvirtual总线信号,使用bus2RLSpec

请注意

当代理等rlACAgent,rlPGAgent,或rlPPOAgent使用一个rlStochasticActorRepresentation演员和一个持续的行动空间,约束行动规范并不强制设定的代理。在这些情况下,您必须执行行动空间中约束环境。

在模拟累积奖赏信号之和。观察或日志这个信号跟踪累计奖励的发展随着时间的推移。

依赖关系

要启用这个端口,选择提供累积奖赏信号参数。

参数

全部展开

输入一个代理对象的名称存储在MATLAB工作区或一个数据字典,如一个rlACAgentrlDDPGAgent对象。关于代理对象的信息,请参阅强化学习代理

编程使用

块参数:代理
类型:字符串,特征向量
默认值:“agentObj”

启用累积奖励通过选择该参数块输出。

编程使用

块参数:ProvideCumRwd
类型:字符串,特征向量
价值观:“关闭”,“上”
默认值:“关闭”

启用对外行动使用外部行动通过选择该参数块输入端口。

编程使用

块参数:ExternalActionAsInput
类型:字符串,特征向量
价值观:“关闭”,“上”
默认值:“关闭”
介绍了R2019a