使用强化学习工具箱™和DQN算法来执行简单摆的基于图像的反演。工作流由以下步骤组成:1)创建环境,2)指定策略表示,3)创建代理,4)列车代理和5)验证培训的策略。
提供的摆锤环境具有预定义的观察,行动和奖励。该动作包括五种可能的扭矩值,观察结果包括50x50灰度图像以及摆锤的角速率,并且奖励是距离所需向上位置的距离。了解如何使用深网络设计器应用程序构建Q函数的神经网络表示,由DQN代理用于近似长期奖励。
看看你如何在训练中可视化钟摆的行为,并监控训练的进展。培训完成后,在模拟中验证策略,以决定是否需要进一步的培训。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获得最佳网站性能。其他MathWorks国家网站未优化您所在地的访问。