getObservationInfo

获得强化学习环境或代理观测数据规格

描述

obsInfo= getObservationInfo(ENV从强化学习环境中提取的观测信息ENV

obsInfo= getObservationInfo(代理人从强化学习代理提取观测信息代理人

例子

全部收缩

提取的动作和观察的信息,你可以用它来创建其他环境或代理商。

这个例子的强化学习环境是自我汽车和引导车厢简单的纵向动态。培训目标是使自我汽车行驶在设定的速度,同时保持从引导车的安全距离,通过控制纵向加速度(和制动)。本例使用相同的车辆模型作为自适应巡航控制系统使用模型预测控制(模型预测控制工具箱)的例子。

打开模型并创建强化学习环境。

MDL ='rlACCMdl';open_system(MDL);agentblk = [MDL'/ RL代理']。%创建的观测信息obsInfo = rlNumericSpec([3 1],“假定下限”,-INF *也是(3,1),'UpperLimit用户',INF *也是(3,1));obsInfo.Name =“意见”;obsInfo.Description =“上速度误差信息和自我速度”;%的行动信息actInfo = rlNumericSpec([1 1],“假定下限”,-3,'UpperLimit用户',2);actInfo.Name =“加速度”;%定义环境ENV = rl万博1manbetxSimulinkEnv(MDL,agentblk,obsInfo,actInfo)
ENV = 万博1manbetxSimulinkEnvWithAgent具有属性:型号: “rlACCMdl” AgentBlock: “rlACCMdl / RL代理” ResetFcn:[] UseFastRestart: '接通'

加强学习环境ENV万博1manbetxSimulinkWithAgent与上述属性对象。

摘自强化学习环境中的动作和观察信息ENV

actInfoExt = getActionInfo(ENV)
actInfoExt = rlNumericSpec与属性:假定下限:-3 UpperLimit用户:2名称: “加速度” 描述:[为0x0字符串]尺寸:[1 1]数据类型: “双”
obsInfoExt = getObservationInfo(ENV)
obsInfoExt = rlNumericSpec与属性:假定下限:[3X1双] UpperLimit用户:[3X1双]名称: “观察” 描述: “上速度误差和自我速度信息” 尺寸:[3 1]数据类型: “双”

的动作信息中包含的加速度值而观察信息包含自身车辆的速度和速度误差值。

输入参数

全部收缩

强化学习环境从中观察信息具有要被提取,指定为万博1manbetxSimulinkEnvWithAgent宾语。

有关强化学习环境的详细信息,请参阅创建强化学习的万博1manbetxSimulink环境

强化学习剂从该观察信息具有要被提取,指定为下面的对象之一:

有关强化学习代理的详细信息,请参阅强化学习代理

输出参数

全部收缩

观测数据规格从强化学习环境萃取,返回作为下列之一的数组:

介绍了在R2019a