从系列:建模,仿真和控制
塞巴斯蒂安·卡斯特罗,MathWorks
Sebastian Castro演示了一个使用深度强化学习控制人形机器人运动的例子,特别是深度确定性策略梯度(deep Deterministic Policy Gradient, DDPG)算法。使用Simscape Multibody™模拟机器人,同时使用Reinforcement Learning Toolbox™进行控制策略的训练。
在这个视频中,塞巴斯蒂安概述了建立,训练和评估强化学习与Simulink万博1manbetx®模型。首先,他介绍了如何为强化学习问题选择状态、行动和奖励函数。然后描述了神经网络的结构和训练算法参数。最后,他展示了一些训练结果,并讨论了强化学习的优点和缺点。
你可以在这个视频中找到示例模型MATLAB中央文件交换.
有关更多信息,您可以访问以下资源:
你也可以从以下列表中选择一个网站:
请选择表现最佳的中国网站(中文或英文)。MathWorks的其他国家网站并没有针对您所在位置的访问进行优化。