创建MATLAB强化学习环境-MATLAB和Simulink-MathWorks Deutschland万博1manbetx

创建MATLAB加固学习环境

在钢筋学习场景中，您培训代理完成任务，环境模拟了代理交互的外部系统（即世界）。在控制系统应用中，这种外部系统通常被称为植物.

如下图所示，环境：

创建环境模型涉及定义：

创建环境对象时，必须指定代理用于与环境交互的操作和观察信号。可以创建离散和连续的动作和观察空间。有关详细信息，请参阅rlNumericSpec和rlFiniteSetSpec分别地

您选择什么信号作为操作和观察取决于您的应用程序。例如，对于控制系统应用，误差信号的积分（有时是导数）通常是有用的观测值。此外，对于参考跟踪应用，将时变参考信号作为观测值是有帮助的。

定义观测信号时，请确保所有环境状态（或其估计）都包含在观测向量中。这是一个很好的实践，因为代理通常是一个静态函数，缺少内部内存或状态，因此它可能无法在内部成功地重构环境状态。

例如，摆动摆的图像观察具有位置信息，但是本身没有足够的信息来确定摆速。在这种情况下，您可以测量或估计摆动速度作为观察向量中的附加条目。

强化学习工具箱™ 软件提供了一些预定义的MATLAB^®已经定义了行动、观察、奖励和动态的环境。您可以使用这些环境来：

您可以为自己的应用程序创建以下类型的自定义MATLAB环境。

创建自定义环境对象后，可以使用与预定义环境中相同的方式培训代理。有关培训代理的更多信息，请参阅培训强化学习代理.

您可以使用自己的自定义奖励、状态转换和障碍配置创建任意大小的自定义网格世界。要创建自定义网格世界环境，请执行以下操作：

使用该网格世界模型createGridWorld作用例如，创建一个名为的网格世界吉瓦有十行九列。
```
gw=createGridWorld（10,9）；
```
通过修改模型的属性来配置网格世界。例如，将终端状态指定为位置[7,9]
```
gw.终端状态=“[7,9]”;
```
网格世界需要包含在马尔可夫决策过程（MDP）环境中。为此网格世界创建MDP环境，代理使用该环境与网格世界模型交互。
```
env=rlMDPEnv（gw）；
```