文档帮助中心文档

培训和验证

训练和模拟强化学习代理

为了学习最优策略，强化学习主体通过反复的试错过程与环境相互作用。在训练期间，代理调整其政策代表的参数，以使长期回报最大化。Reinforcement Learning Toolbox™软件提供了训练agent的功能，并通过仿真验证训练结果。有关更多信息，请参见训练强化学习代理．

应用程序

加固学习设计师

设计、训练和模拟强化学习代理

功能

`火车`	在指定的环境中训练强化学习代理
`rltringOptions.`	训练强化学习代理的选项
`sim卡`	在指定环境中模拟培训的钢筋学习代理
`RlsimulationOptions.`	用于在环境中模拟强化学习代理的选项
`检查触发器`	从以前的培训课程中获取培训信息

块

强化学习代理

主题

训练和模拟基础

训练强化学习代理

在特定的环境中训练你的代理人，找出最优的策略。

在基本网格世界中列车加固学习代理

训练Q-learning和SARSA代理在MATLAB中解决一个网格世界^®．

MDP环境下训练强化学习Agent

在通用马尔可夫决策过程环境中培训钢筋学习代理。

创建Simul万博1manbetxink环境和Train Agent

用在Simulink中建模的对象使用强化学习训练控制器万博1manbetx^®作为培训环境。

使用钢筋学习设计器应用程序

使用钢筋学习设计师的设计和火车代理

使用钢筋学习设计器应用程序设计和培训用于推车杆系统的DQN代理。

在钢筋学习设计师中指定模拟选项

交互式地指定模拟强化学习代理的选项。

在强化学习设计中指定训练选项

交互方式指定培训加固学习代理的选项。

使用多个进程和GPU

使用并行计算和GPU的火车代理

通过在多核、gpu、集群或云资源上并行运行模拟，加速代理训练。

利用并行计算训练AC代理平衡车-杆系统

使用异步并行计算火车演员代理代理。

利用并行计算训练DQN代理保持车道辅助

使用并行计算列车为自动化驾驶应用程序进行钢筋学习代理。

火车代理商马铃薯环境

训练DDPG代理控制双集成商系统

训练一个深度确定性策略梯度代理来控制用MATLAB建模的二阶动态系统。

用基线列车PG代理控制双积分系统

用基线培训一个政策渐变，以控制在Matlab中建模的双积分器系统。

训练DQN代理平衡车-杆系统

火车深度Q学习网络代理以平衡Matlab中建模的推车杆系统。

火车PG代理可以平衡车杆系统

训练一个策略梯度代理来平衡一个用MATLAB建模的小车-极点系统。

火车AC代理以平衡车杆系统

训练一个行动者-评论家代理来平衡一个用MATLAB建模的小车-极点系统。

培训DDPG代理以摇摆和平衡摆动图像观察

使用基于图像的观察信号列车培训钢筋学习代理。

使用深度网络设计师和使用图像观察创建代理

使用深度学习工具箱™使用深网络设计器应用程序创建强化学习代理。

火车代理商万博1manbetx环境

训练DQN代理摆起和平衡摆

训练Deep Q-network agent来平衡Simulink中建模的摆。万博1manbetx

训练DDPG代理摆动和平衡摆

训练一个深度确定性策略梯度代理来平衡在Simulink中建模的摆。万博1manbetx

用总线信号训练DDPG代理摆起和平衡摆

培训钢筋学习代理以平衡包含总线信号中观察的摆锤模拟模型。万博1manbetx

火车DDPG代理摇摆和平衡车杆系统

训练一个深度确定性的政策梯度代理，以摆动和平衡模型中的小车-杆系统Simscape™MultiBody™．

多功能培训

培训多个代理商执行协作任务

火车两个PPO代理商进行协作移动物体。

火车用于区域覆盖的多个代理

培训三个PPO代理商以合作竞争的方式探索网格世界环境。

训练多智能体进行路径跟踪控制

训练一个DQN和一个DDPG代理协同执行自适应巡航控制和车道保持辅助跟踪路径。

模仿学习

车道保持辅助的模拟MPC控制器

训练一个深度神经网络来模仿模型预测控制器的行为。

模仿飞行机器人的非线性MPC控制器

培训深度神经网络以模仿非线性模型预测控制器的行为。

使用预先训练的行动者网络训练DDPG Agent

使用先前使用监督学习训练过的行动者网络训练一个强化学习代理。

定制代理和培训算法

火车定制LQR代理

训练一名定制的LQR特工。

使用定制培训循环的培训强化学习策略

使用您自己的自定义训练算法训练强化学习策略。

创建自定义强化学习算法的Agent

为自定义加强学习算法创建代理。

特色的例子

调整PI控制器使用加强学习

调整PI控制器使用加强学习

使用强化学习代理调整PI控制器的收益。

打开直播脚本

火车TD3用于PMSM控制的代理

火车TD3用于PMSM控制的代理

培训钢筋学习剂以控制永磁同步电动机中的电流。

打开直播脚本

利用加固学习调度水分配系统调度

利用加固学习调度水分配系统调度

培训DQN代理以最佳地激活水分配系统中的泵。

打开直播脚本

火车DDPG代理控制飞行机器人

火车DDPG代理控制飞行机器人

培训钢筋学习代理以控制飞行机器人模型。

打开直播脚本

火车PPO代理到陆地火箭

火车PPO代理到陆地火箭

训练一个强化学习型特工让火箭着陆。

打开直播脚本

火车双边机器人使用加强学习代理行走

火车双边机器人使用加强学习代理行走

火车加强学习代理以控制建模的双手行走机器人Simscape多体．

打开直播脚本

使用DDPG代理的四足机器人机器人

使用DDPG代理的四足机器人机器人

火车加强学习代理以控制模型的四足行走机器人Simscape多体．

打开直播脚本

培训DQN Agent for Lane保持辅助

培训DQN Agent for Lane保持辅助

为车道保留辅助应用培训钢筋学习代理。

打开直播脚本

训练自适应巡航控制的DDPG Agent

训练自适应巡航控制的DDPG Agent

训练一个强化学习代理为自适应巡航控制应用。

打开直播脚本

训练DDPG Agent进行路径跟踪控制

训练DDPG Agent进行路径跟踪控制

培训申请后车道的加强学习代理。

打开直播脚本

列车PPO代理自动泊车代客

列车PPO代理自动泊车代客

培训钢筋学习代理将汽车停放在开放的停车位。

打开直播脚本

带限制执行的列车加固学习代理

带限制执行的列车加固学习代理

使用约束执行块训练具有约束动作的强化学习代理。

打开直播脚本

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

下载电子书