行走机器人的深度强化学习

塞巴斯蒂安·卡斯特罗,MathWorks

Sebastian Castro演示了一个使用深度强化学习控制人形机器人运动的例子，特别是深度确定性策略梯度(deep Deterministic Policy Gradient, DDPG)算法。使用Simscape Multibody™模拟机器人，同时使用Reinforcement Learning Toolbox™进行控制策略的训练。

在这个视频中，塞巴斯蒂安概述了建立，训练和评估强化学习与Simulink万博1manbetx^®模型。首先，他介绍了如何为强化学习问题选择状态、行动和奖励函数。然后描述了神经网络的结构和训练算法参数。最后，他展示了一些训练结果，并讨论了强化学习的优点和缺点。

你可以在这个视频中找到示例模型MATLAB中央文件交换．

有关更多信息，您可以访问以下资源: