从系列中:建模、仿真与控制
塞巴斯蒂安·卡斯特罗,MathWorks
Sebastian Castro演示了一个使用深度强化学习控制类人机器人运动的例子,特别是深度确定性策略梯度(DDPG)算法。机器人使用Simscape Multibody™进行模拟,而控制策略的训练则使用Reinforcement Learning Toolbox™进行。
在这个视频中,Sebastian概述了使用Simulink进行强化学习的设置、训练和评估万博1manbetx®模型。首先,他介绍了如何为强化学习问题选择状态、行动和奖励函数。然后描述了神经网络的结构和训练算法参数。最后,他展示了一些训练结果,并讨论了强化学习的优点和缺点。
您可以在本视频中使用的示例模型MATLAB中央文件交换.
有关更多信息,您可以访问以下资源:
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。