帮助中心帮助中心

使用深度神经网络的强化学习

通过与未知动态环境的交互来训练深度神经网络代理

强化学习是一种目标导向的计算方法，智能体通过与未知动态环境交互来学习执行任务。在训练过程中，学习算法更新代理策略参数。学习算法的目标是找到一种最优策略，使任务期间收到的长期奖励最大化。

根据代理的类型，策略由一个或多个策略和值函数表示形式表示。你可以使用深度神经网络来实现这些表示。然后，您可以使用强化学习工具箱™软件来训练这些网络。

有关更多信息，请参见使用深度神经网络的强化学习．

主题

使用深度神经网络的强化学习
强化学习是一种目标导向的计算方法，计算机通过与未知动态环境交互来学习执行任务。
创建Simul万博1manbetxink环境和训练代理
用Simulink中建模的植物进行强化学习，训练控制器万博1manbetx^®作为培训环境。
使用深度网络设计器创建代理，并使用图像观察进行训练
使用深度学习工具箱中的深度网络设计器应用程序创建一个强化学习代理。
训练DDPG Agent用图像观察摆动和平衡摆
使用基于图像的观察信号训练一个强化学习代理。
利用并行计算训练DQN Agent的车道保持辅助
为车道保持辅助应用训练一个强化学习代理。
模拟MPC控制器的车道保持辅助
训练深度神经网络来模仿模型预测控制器的行为。

特色的例子

训练DDPG Agent控制飞行机器人

训练DDPG Agent控制飞行机器人

训练一个强化学习代理来控制一个飞行机器人模型。

打开实时脚本

使用强化学习代理训练双足机器人行走

使用强化学习代理训练双足机器人行走

训练一个强化学习代理来控制一个两足行走机器人Simscape™多体™．

打开实时脚本

训练DDPG Agent进行自适应巡航控制

训练DDPG Agent进行自适应巡航控制

训练一个用于自适应巡航控制应用的强化学习代理。

打开实时脚本

训练DDPG Agent进行路径跟踪控制

训练DDPG Agent进行路径跟踪控制

训练一个增强学习代理，用于车道跟踪应用。

打开实时脚本

训练人形步行者

训练人形步行者

使用遗传算法或强化学习训练一个人形机器人行走。

打开实时脚本

培训PPO代理自动代泊车员

培训PPO代理自动代泊车员

训练一个强化学习代理在一个开放的停车位停车。

打开实时脚本