文档帮助中心文档

培训和验证

训练和模拟强化学习代理

为了学习最优策略，强化学习代理通过反复的试错过程与环境交互。在训练期间，代理调整其策略表示的参数，以最大化长期回报。Reinforcement Learning Toolbox™软件提供了训练代理和通过模拟验证训练结果的功能。有关更多信息，请参见训练强化学习代理．

应用程序

强化学习设计

设计、训练和模拟强化学习代理

功能

`火车`	在指定的环境中训练强化学习代理
`rlTrainingOptions`	训练强化学习代理的选项
`sim卡`	在指定的环境中模拟训练过的强化学习代理
`rlSimulationOptions`	在环境中模拟强化学习代理的选项
`inspectTrainingResult`	绘制以前培训课程的培训信息

块

强化学习代理

主题

训练与模拟基础

训练强化学习代理

通过在指定的环境中培训您的代理，找到最佳策略。

在基本网格世界中训练强化学习代理

在MATLAB中训练Q-learning和SARSA agent来求解网格世界^®．

在MDP环境中训练强化学习代理

在一般马尔可夫决策过程环境中训练强化学习代理。

创建Simul万博1manbetxink环境和培训代理

使用强化学习在Simulink中建模的植物来训练控制器万博1manbetx^®作为培训环境。

使用强化学习设计师应用程序

使用强化学习设计器设计和训练代理

使用Reinforcement Learning Designer应用程序设计并训练一个车杆系统的DQN代理。

在强化学习设计器中指定模拟选项

交互式地指定模拟强化学习代理的选项。

在强化学习设计器中指定培训选项

交互式地指定训练强化学习代理的选项。

使用多进程和gpu

使用并行计算和gpu的列车代理

通过在多核、gpu、集群或云资源上并行运行模拟，加速代理训练。

用并行计算训练交流Agent平衡车杆系统

使用异步并行计算训练角色-评论代理。

基于并行计算的车道保持辅助DQN Agent训练

使用并行计算为自动驾驶应用训练强化学习代理。

培训代理商MATLAB环境

培训DDPG Agent控制双积分系统

在MATLAB中训练深度确定性策略梯度智能体控制二阶动态系统。

用基线训练PG Agent控制双积分器系统

在MATLAB中训练带基线的策略梯度来控制双积分器系统。

培训DQN员工平衡车杆系统

训练一个深度q学习网络agent来平衡一个MATLAB建模的车杆系统。

训练PG代理平衡车杆系统

在MATLAB中训练策略梯度代理来平衡车杆系统。

训练空调代理人平衡车杆系统

训练一个行动者-评论家代理平衡一个在MATLAB中建模的车杆系统。

用图像观察训练DDPG Agent上摆和平衡摆

使用基于图像的观测信号训练强化学习代理。

使用深度网络设计器创建代理和使用图像观察训练

使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。

培训代理商万博1manbetx环境

训练DQN Agent上摆和平衡摆

训练一个Deep Q-network agent来平衡Simulink中的钟摆。万博1manbetx

训练DDPG Agent上摆和平衡摆

在Simulink中训练一个深度确定性策略梯度agent来平衡一个钟摆。万博1manbetx

训练DDPG Agent用总线信号上摆和平衡摆

训练一个强化学习代理来平衡一个Simulink模型，该模型包含一个总线信号中的观察值。万博1manbetx

培训DDPG代理上吊和平衡车杆系统

训练一个深度确定性的策略梯度代理来摆动并平衡一个模型中的车杆系统Simscape™多体™．

多代理培训

训练多个agent执行协作任务

训练两名PPO代理人合作移动物体。

为区域覆盖培训多名特工

训练三个PPO代理人以合作-竞争的方式探索网格世界环境。

训练多agent进行路径跟踪控制

训练一个DQN和一个DDPG agent协同执行自适应巡航控制和车道保持辅助以遵循路径。

模仿学习

模拟MPC控制器的车道保持辅助

训练一个深度神经网络来模仿模型预测控制器的行为。

飞行机器人非线性MPC控制器的仿真

训练一个深度神经网络来模仿非线性模型预测控制器的行为。

用预先训练好的Actor网络训练DDPG Agent

使用先前使用监督学习训练过的行动者网络来训练强化学习代理。

定制代理和训练算法

火车定制LQR代理

培训一个定制的LQR代理。

使用自定义训练循环训练强化学习策略

使用您自己的自定义训练算法训练强化学习策略。

为自定义强化学习算法创建代理

为自定义强化学习算法创建代理。

特色的例子

使用强化学习调节PI控制器

使用强化学习调节PI控制器

使用强化学习代理调整PI控制器的增益。

打开生活的脚本

培训TD3 Agent进行PMSM控制

培训TD3 Agent进行PMSM控制

训练一个强化学习代理来控制永磁同步电机中的电流。

打开生活的脚本

使用强化学习的配水系统调度

使用强化学习的配水系统调度

培训一名DQN代理，以最优地激活配水系统中的水泵。

打开生活的脚本

训练DDPG Agent控制飞行机器人

训练DDPG Agent控制飞行机器人

训练强化学习代理控制飞行机器人模型。

打开生活的脚本

训练PPO代理登陆火箭

训练PPO代理登陆火箭

训练一个强化学习代理去着陆火箭。

打开生活的脚本

使用强化学习代理训练两足机器人行走

使用强化学习代理训练两足机器人行走

训练强化学习代理来控制模型中的两足步行机器人Simscape多体．

打开生活的脚本

基于DDPG Agent的四足机器人运动

基于DDPG Agent的四足机器人运动

训练强化学习代理来控制模型中的四足步行机器人Simscape多体．

打开生活的脚本

对DQN代理进行车道保持协助培训

对DQN代理进行车道保持协助培训

为车道保持辅助应用训练强化学习代理。

打开生活的脚本

训练自适应巡航控制的DDPG Agent

训练自适应巡航控制的DDPG Agent

为自适应巡航控制应用训练强化学习代理。

打开生活的脚本

训练DDPG Agent进行路径跟踪控制

训练DDPG Agent进行路径跟踪控制

为车道跟踪应用训练强化学习代理。

打开生活的脚本

培训自动代客泊车的PPO代理

培训自动代客泊车的PPO代理

训练一个强化学习代理在一个开放的停车位停车。

打开生活的脚本

训练具有约束执行的强化学习代理

训练具有约束执行的强化学习代理

使用约束执行块训练具有约束动作的强化学习代理。

打开生活的脚本

强化学习工具箱文档

万博1manbetx

强化学习与MATLAB和Simulink万博1manbetx

强化学习与MATLAB和Simulink万博1manbetx

下载电子书