getActionInfo

从强化学习环境,获得行动数据规范代理或经验缓冲区

自从R2019a

所有的页面崩溃

语法

actInfo = getActionInfo (env)

actInfo = getActionInfo(代理)

actInfo = getActionInfo(缓冲区)

描述

例子

actInfo= getActionInfo (env)从强化学习环境提取行动信息env。

actInfo= getActionInfo (代理)从强化学习代理提取行动信息代理。

actInfo= getActionInfo (缓冲)从经验中提取动作信息缓冲区缓冲。

例子

全部折叠

从强化学习环境中提取动作和观测规范

打开生活的脚本

这个例子是一个纵向的强化学习环境动力学模型包括两辆车、领袖和跟风者的。也用于车辆模型自适应巡航控制系统使用模型预测控制(模型预测控制工具箱)的例子。

打开模型。

mdl =“rlACCMdl”;open_system (mdl);

代理在指定路径模型。

agentblk = mdl +“/ RL代理”;

创建的观察和操作规范。

%观测规范obsInfo = rlNumericSpec (1 [3], LowerLimit =无穷* (3,1),UpperLimit =正*的(3,1));obsInfo。Name =“观察”;obsInfo。描述=“速度误差和自我信息速度”;%的行动规范actInfo = rlNumericSpec ([1], LowerLimit = 3, UpperLimit = 2);actInfo。Name =“加速”;

接口定义环境。

env = rl万博1manbetxSimulinkEnv (mdl agentblk、obsInfo actInfo)

env = 万博1manbetxSimulinkEnvWithAgent属性:模型:rlACCMdl AgentBlock: rlACCMdl / RL代理ResetFcn: [] UseFastRestart:

强化学习环境env是一个万博1manbetxSimulinkEnvWithAgent对象。

提取的行动和观测规范env。

actInfoExt = getActionInfo (env)

actInfoExt = rlNumericSpec属性:LowerLimit: 3 UpperLimit: 2名:“加速度”描述:[0 x0字符串]维度:[1]数据类型:“替身”

obsInfoExt = getObservationInfo (env)

obsInfoExt = rlNumericSpec属性:LowerLimit: x1双[3]UpperLimit: [3 x1双)名称:“观察”的描述:“速度误差和自我信息速度”维度:1[3]数据类型:“替身”

行动信息包含加速度值,同时观察信息包含了自我的车辆速度和速度误差值。

输入参数

全部折叠

`env`- - - - - -强化学习环境
`rlFunctionEnv`对象|`万博1manbetxSimulinkEnvWithAgent`对象|`rlNeuralNetworkEnvironment`对象|预定义的MATLAB环境对象

强化学习环境中提取的操作信息,指定为以下之一:

MATLAB^®环境表示为下列对象之一。
- rlFunctionEnv
- rlNeuralNetworkEnvironment
- 使用预定义的MATLAB环境rlPredefinedEnv
万博1manbetx^®环境表示为万博1manbetxSimulinkEnvWithAgent对象。

强化学习环境的更多信息,请参阅创建MATLAB强化学习环境和创建模型强化学万博1manbetx习环境。

`代理`- - - - - -强化学习代理
`rlQAgent`对象|`rlSARSAAgent`对象|`rlDQNAgent`对象|`rlPGAgent`对象|`rlDDPGAgent`对象|`rlTD3Agent`对象|`rlACAgent`对象|`rlPPOAgent`对象|`rlTRPOAgent`对象|`rlSACAgent`对象|`rlMBPOAgent`对象

强化学习代理提取行动的信息,指定为以下对象之一。

在强化学习代理的更多信息,见强化学习代理。

`缓冲`- - - - - -经验的缓冲
`rlReplayMemory`对象|`rlPrioritizedReplayMemory`对象|`rlHindsightReplayMemory`对象|`rlHindsightPrioritizedReplayMemory`对象

经验缓冲区,指定为下列重放内存对象之一。

输出参数

全部折叠

`actInfo`——行动数据规范
的数组`rlNumericSpec`|对象的数组`rlFiniteSetSpec`对象

行为规范从强化学习环境中提取数据,作为一个数组返回下列之一:

版本历史

介绍了R2019a

另请参阅

功能

getObservationInfo

对象

rlNumericSpec|rlFiniteSetSpec|rlQAgent|rlSARSAAgent|rlDQNAgent|rlPGAgent|rlACAgent|rlDDPGAgent

getActionInfo

语法

描述

例子

从强化学习环境中提取动作和观测规范

输入参数

env- - - - - -强化学习环境rlFunctionEnv对象|万博1manbetxSimulinkEnvWithAgent对象|rlNeuralNetworkEnvironment对象|预定义的MATLAB环境对象

代理- - - - - -强化学习代理rlQAgent对象|rlSARSAAgent对象|rlDQNAgent对象|rlPGAgent对象|rlDDPGAgent对象|rlTD3Agent对象|rlACAgent对象|rlPPOAgent对象|rlTRPOAgent对象|rlSACAgent对象|rlMBPOAgent对象

缓冲- - - - - -经验的缓冲rlReplayMemory对象|rlPrioritizedReplayMemory对象|rlHindsightReplayMemory对象|rlHindsightPrioritizedReplayMemory对象

输出参数

actInfo——行动数据规范的数组rlNumericSpec|对象的数组rlFiniteSetSpec对象

版本历史

另请参阅

功能

对象

主题

`env`- - - - - -强化学习环境
`rlFunctionEnv`对象|`万博1manbetxSimulinkEnvWithAgent`对象|`rlNeuralNetworkEnvironment`对象|预定义的MATLAB环境对象

`代理`- - - - - -强化学习代理
`rlQAgent`对象|`rlSARSAAgent`对象|`rlDQNAgent`对象|`rlPGAgent`对象|`rlDDPGAgent`对象|`rlTD3Agent`对象|`rlACAgent`对象|`rlPPOAgent`对象|`rlTRPOAgent`对象|`rlSACAgent`对象|`rlMBPOAgent`对象

`缓冲`- - - - - -经验的缓冲
`rlReplayMemory`对象|`rlPrioritizedReplayMemory`对象|`rlHindsightReplayMemory`对象|`rlHindsightPrioritizedReplayMemory`对象

`actInfo`——行动数据规范
的数组`rlNumericSpec`|对象的数组`rlFiniteSetSpec`对象