具有图像数据的倒立摆的加固学习

使用强化学习工具箱™和DQN算法来执行简单摆的基于图像的反演。工作流由以下步骤组成：1）创建环境，2）指定策略表示，3）创建代理，4）列车代理和5）验证培训的策略。

提供的摆锤环境具有预定义的观察，行动和奖励。该动作包括五种可能的扭矩值，观察结果包括50x50灰度图像以及摆锤的角速率，并且奖励是距离所需向上位置的距离。了解如何使用深网络设计器应用程序构建Q函数的神经网络表示，由DQN代理用于近似长期奖励。

看看你如何在训练中可视化钟摆的行为，并监控训练的进展。培训完成后，在模拟中验证策略，以决定是否需要进一步的培训。