从系列:建模,仿真与控制
塞巴斯蒂安·卡斯特罗演示了使用深强化学习,特别是深确定性政策梯度(DDPG)算法控制类人机器人运动的一个例子。该机器人使用的Simscape多体™模拟,同时培养控制策略是使用强化学习工具箱™完成。
在这部影片中,塞巴斯蒂安概述了安装,培训和使用Simulink强化学习的评价万博1manbetx®楷模。首先,他介绍了如何选择状态,动作,以及强化学习问题的奖励功能。接着,他介绍了神经网络结构和训练算法参数。最后,他展示了一些训练成果,并讨论了效益和强化学习的缺点。
您可以在本视频中找到示例模型MATLAB中央文件交换。
欲了解更多信息,可以访问以下资源:
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获得最佳网站性能。其他MathWorks国家网站未优化您所在地的访问。