创建强化学习MATLAB环境 - MATLAB＆Simulink的万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

创建MATLAB环境中的强化学习

在强化学习场景中，您正在训练一个代理来完成一项任务，环境建模与代理交互的外部系统(即世界)。在控制系统应用中，这个外部系统通常被称为这种植物。

如图下图，环境：

创建环境模型是定义：

当您创建环境对象，必须指定动作和观察信号代理使用与环境互动。您可以创建离散和连续动作和观察空间。欲了解更多信息，请参阅rlNumericSpec和rlFiniteSetSpec，分别。

什么信号选择的动作和观察取决于你的应用。例如，对于控制系统的应用，误差信号的积分（有时衍生物）通常是有用的观测。另外，对于参考跟踪应用中，具有随时间变化的基准信号作为观察是有帮助的。

当你定义你的观察信号，确保所有的环境状态（或他们的估计）都包含在观测向量。这是一个很好的做法，因为代理往往是一个静态函数缺乏内部存储器或状态，所以它可能不能够成功地重建内部环境状态。

例如，摆锤的图像观测具有位置信息，但本身没有足够的信息来确定摆速。在这种情况下，您可以测量或估计钟摆速度作为观察向量中的一个额外条目。

强化学习工具箱™软件提供了一些预定义的MATLAB^®行动，观察，奖励和动态已经为其定义的环境。您可以使用这些环境：

您可以为自己的应用程序创建以下类型的自定义MATLAB环境:

一旦你创建一个自定义的环境对象，你可以训练以同样的方式代理作为一个预定义的环境。有关培训代理的详细信息，请参阅火车强化学习代理。

您可以创建任意大小的自定义网格世界与自己的自定义的奖励，状态转换以及障碍物的配置。要创建一个定制的格子世界环境：

创建一个网格世界模型createGridWorld函数。例如，创建一个名为的网格世界GW用十行9列。
```
GW = createGridWorld（10,9）;
```
通过修改模型的属性来配置网格世界。例如，将终端状态指定为位置[7,9]
```
gw.TerminalStates =“(7、9)”;
```
网格世界需要包含在马尔可夫决策过程（MDP）的环境。创建这个格子世界的MDP环境，该代理人使用与格子世界模型交互。
```
ENV = rlMDPEnv（GW）;
```