Emmanouil Tzorakoleftherakis, MathWorks
使用Reinforcement Learning Toolbox™和DQN算法对一个简单的钟摆进行基于图像的反演。工作流由以下步骤组成:1)创建环境,2)指定策略表示,3)创建代理,4)训练代理,5)验证训练过的策略。
所提供的钟摆环境具有预定义的观察、行动和奖励。动作包括5个可能的扭矩值,观察包括一个50x50的灰度图像和钟摆的角速率,奖励是从期望的上升位置的距离。学习如何使用Deep Network Designer应用程序构建q函数的神经网络表示,DQN代理使用它来近似长期回报。
了解如何在培训期间可视化摆动行为,并监控培训进度。完成培训后,验证模拟中的策略以决定是否需要进一步培训。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。