创建MATLAB增强学习环境-MATLAB和SIMULINK -MATHWORKS ITALIA万博1manbetx

创造MATLAB强化学习环境

在强化学习方案中，您可以在其中训练代理完成任务，环境对代理商互动的外部系统（即世界）建模。在控制系统应用中，此外部系统通常称为植物。

如下图所示，环境：

创建环境模型涉及定义：

创建环境对象时，必须指定代理商用于与环境交互的操作和观察信号。您可以同时创建离散的动作和观察空间。有关更多信息，请参阅rlnumericspec和rlfinitesetspec，分别。

您选择的作为操作和观察的信号取决于您的应用程序。例如，对于控制系统应用，误差信号的积分（有时甚至是导数）通常是有用的观察结果。同样，对于参考跟踪应用程序，具有时间变化的参考信号作为观察很有帮助。

当您定义观察信号时，请确保所有环境状态（或其估计）都包含在观测向量中。这是一个很好的做法，因为代理通常是缺乏内部内存或状态的静态函数，因此它可能无法在内部成功重建环境状态。

例如，摇摆摆的图像观察具有位置信息，但没有足够的信息来确定摆速度。在这种情况下，您可以测量或估计摆速度作为观察矢量中的附加条目。

增强学习工具箱™软件提供了一些预定义的MATLAB^®动作，观察，奖励和动态的环境已经定义。您可以使用这些环境来：

您可以为自己的应用程序创建以下类型的自定义MATLAB环境。

创建自定义环境对象后，您可以以与预定义环境相同的方式训练代理。有关培训代理的更多信息，请参阅训练加强学习者。

您可以使用自己的自定义奖励，状态过渡和障碍配置创建任何大小的自定义网格世界。创建自定义网格世界环境：

创建网格世界模型CreateGridWorld功能。例如，创建一个名为的网格世界GW有十行和九列。
```
gw = createGridWorld（10,9）;
```
通过修改模型的属性来配置网格世界。例如，将终端状态指定为位置[7,9]
```
gw.terminalstates =“ [7,9]”;
```
马尔可夫决策过程（MDP）环境需要将网格世界包括在内。为这个网格世界创建MDP环境，代理商用它与网格世界模型进行交互。
```
env = rlmdpenv（gw）;
```