帮助中心帮助中心

使用深层神经网络的强化学习

通过与未知的动态环境互动来训练深神经网络代理

强化学习是一种目标指导的计算方法，代理商通过与未知的动态环境进行交互来学习执行任务。在培训期间，学习算法更新代理策略参数。学习算法的目的是找到一项最佳政策，以最大程度地利用任务期间获得的长期奖励。

根据代理的类型，该策略由一个或多个策略和价值功能表示形式表示。您可以使用深层神经网络实施这些表示。然后，您可以使用增强学习Toolbox™软件训练这些网络。

有关更多信息，请参阅使用深层神经网络的强化学习。

话题

使用深层神经网络的强化学习
强化学习是一种目标指导的计算方法，计算机通过与未知的动态环境进行交互来学习执行任务。
创建Simul万博1manbetxink环境和培训代理
使用以Simulink建模的植物使用加固学习训练控制器万博1manbetx^®作为培训环境。
使用深网设计师创建代理，并使用图像观测来训练
使用Deep Learning Toolbox™使用Deep Network Designer应用程序创建强化学习代理。
训练DDPG代理以摆动和平衡摆与图像观察
使用基于图像的观察信号来训练增强学习剂。
使用平行计算的训练DQN代理进行车道保持辅助
培训加固学习代理，以供车道保持辅助应用。
模仿MPC控制器进行车道保持辅助
训练深层神经网络以模仿模型预测控制器的行为。

特色示例

训练DDPG代理控制飞行机器人

训练DDPG代理控制飞行机器人

训练加固学习代理以控制飞行机器人模型。

打开实时脚本

火车双只能机器人使用加固学习剂走路

火车双只能机器人使用加固学习剂走路

训练加固的学习剂，以控制模仿的双头步行机器人SIMSCAPE™MultiBody™。

打开实时脚本

火车DDPG代理自适应巡航控制

火车DDPG代理自适应巡航控制

培训加固学习代理，以进行自适应巡航控制申请。

打开实时脚本

训练DDPG代理进行路径遵循控制

训练DDPG代理进行路径遵循控制

应用后，培训了一条钢筋学习代理，为车道培训。

打开实时脚本

训练人形助行器

训练人形助行器

训练类人形机器人使用遗传算法或增强学习。

打开实时脚本

训练PPO代理自动停车代客

训练PPO代理自动停车代客

训练加固的学习代理，将汽车停在开放的停车位。

打开实时脚本