创建MATLAB强化学习环境- MATLAB和Simulink MathWorks法国万博1manbetx

创建MATLAB强化学习的环境

在强化学习的情况下,你训练一个代理来完成一项任务,环境模型外部系统(即世界)的代理进行交互。在控制系统应用程序中,这通常被称为外部系统这种植物。

如下图所示,环境:

创建一个环境模型包括定义:

创建环境对象时,您必须指定代理使用的行动和观测信号与环境进行交互。您可以创建两个离散和连续操作和观察空间。有关更多信息,请参见rlNumericSpec和rlFiniteSetSpec,分别。

你选择什么样的信号操作和观察取决于您的应用程序。例如,对于控制系统应用中,误差信号的积分(有时是衍生品)通常是有用的观察。reference-tracking应用程序,有一个时变参考信号作为一个观察是有帮助的。

当你定义你的观测信号,确保所有环境状态(或者他们的估计)都包含在观测向量。这是一个好的做法,因为代理通常是一个静态函数,缺乏内部内存或状态,所以它可能无法成功重建环境的内部状态。

例如,一个图像的观察一个摆动的钟摆位置信息,但没有足够的信息,就其本身而言,确定摆速度。在这种情况下,您可以测量或估计摆速度观测向量作为额外的条目。

强化学习的软件提供了一些预定义的MATLAB工具箱™^®环境的操作,观察,奖励,和动力学已经定义。您可以使用这些环境:

您可以创建以下类型的定制的MATLAB环境为您自己的应用程序。

一旦你创建一个自定义环境对象,您可以训练一个代理以同样的方式在一个预定义的环境。培训代理商的更多信息,请参阅强化学习培训代理。

您可以创建自定义网格的世界与自己的自定义任何规模的奖励,配置状态转换和障碍。创建一个定制的网格世界环境:

创建一个网格世界模型使用createGridWorld函数。例如,创建一个网格世界命名吉瓦十行9列。
```
9 gw = createGridWorld(10日);
```
世界通过修改配置网格模型的属性。例如,指定终端状态的位置(7、9)
```
gw。TerminalStates =“(7、9)”;
```
网格的世界需要被包括在一个马尔可夫决策过程(MDP)环境。创建一个网格MDP环境世界,代理使用世界与电网交互模型。
```
env = rlMDPEnv (gw);
```