主要内容

培训和验证

训练和模拟强化学习代理

为了学习最优策略,强化学习主体通过反复的试错过程与环境相互作用。在训练期间,代理调整其政策代表的参数,以使长期回报最大化。Reinforcement Learning Toolbox™软件提供了训练agent的功能,并通过仿真验证训练结果。有关更多信息,请参见训练强化学习代理

应用程序

加固学习设计师 设计、训练和模拟强化学习代理

功能

火车 在指定的环境中训练强化学习代理
rltringOptions. 训练强化学习代理的选项
sim卡 在指定环境中模拟培训的钢筋学习代理
RlsimulationOptions. 用于在环境中模拟强化学习代理的选项
检查触发器 从以前的培训课程中获取培训信息

RL代理人 强化学习代理

主题

训练和模拟基础

训练强化学习代理

在特定的环境中训练你的代理人,找出最优的策略。

在基本网格世界中列车加固学习代理

训练Q-learning和SARSA代理在MATLAB中解决一个网格世界®

MDP环境下训练强化学习Agent

在通用马尔可夫决策过程环境中培训钢筋学习代理。

创建Simul万博1manbetxink环境和Train Agent

用在Simulink中建模的对象使用强化学习训练控制器万博1manbetx®作为培训环境。

使用钢筋学习设计器应用程序

使用钢筋学习设计师的设计和火车代理

使用钢筋学习设计器应用程序设计和培训用于推车杆系统的DQN代理。

在钢筋学习设计师中指定模拟选项

交互式地指定模拟强化学习代理的选项。

在强化学习设计中指定训练选项

交互方式指定培训加固学习代理的选项。

使用多个进程和GPU

使用并行计算和GPU的火车代理

通过在多核、gpu、集群或云资源上并行运行模拟,加速代理训练。

利用并行计算训练AC代理平衡车-杆系统

使用异步并行计算火车演员代理代理。

利用并行计算训练DQN代理保持车道辅助

使用并行计算列车为自动化驾驶应用程序进行钢筋学习代理。

火车代理商马铃薯环境

训练DDPG代理控制双集成商系统

训练一个深度确定性策略梯度代理来控制用MATLAB建模的二阶动态系统。

用基线列车PG代理控制双积分系统

用基线培训一个政策渐变,以控制在Matlab中建模的双积分器系统。

训练DQN代理平衡车-杆系统

火车深度Q学习网络代理以平衡Matlab中建模的推车杆系统。

火车PG代理可以平衡车杆系统

训练一个策略梯度代理来平衡一个用MATLAB建模的小车-极点系统。

火车AC代理以平衡车杆系统

训练一个行动者-评论家代理来平衡一个用MATLAB建模的小车-极点系统。

培训DDPG代理以摇摆和平衡摆动图像观察

使用基于图像的观察信号列车培训钢筋学习代理。

使用深度网络设计师和使用图像观察创建代理

使用深度学习工具箱™使用深网络设计器应用程序创建强化学习代理。

火车代理商万博1manbetx环境

训练DQN代理摆起和平衡摆

训练Deep Q-network agent来平衡Simulink中建模的摆。万博1manbetx

训练DDPG代理摆动和平衡摆

训练一个深度确定性策略梯度代理来平衡在Simulink中建模的摆。万博1manbetx

用总线信号训练DDPG代理摆起和平衡摆

培训钢筋学习代理以平衡包含总线信号中观察的摆锤模拟模型。万博1manbetx

火车DDPG代理摇摆和平衡车杆系统

训练一个深度确定性的政策梯度代理,以摆动和平衡模型中的小车-杆系统Simscape™MultiBody™

多功能培训

培训多个代理商执行协作任务

火车两个PPO代理商进行协作移动物体。

火车用于区域覆盖的多个代理

培训三个PPO代理商以合作竞争的方式探索网格世界环境。

训练多智能体进行路径跟踪控制

训练一个DQN和一个DDPG代理协同执行自适应巡航控制和车道保持辅助跟踪路径。

模仿学习

车道保持辅助的模拟MPC控制器

训练一个深度神经网络来模仿模型预测控制器的行为。

模仿飞行机器人的非线性MPC控制器

培训深度神经网络以模仿非线性模型预测控制器的行为。

使用预先训练的行动者网络训练DDPG Agent

使用先前使用监督学习训练过的行动者网络训练一个强化学习代理。

定制代理和培训算法

火车定制LQR代理

训练一名定制的LQR特工。

使用定制培训循环的培训强化学习策略

使用您自己的自定义训练算法训练强化学习策略。

创建自定义强化学习算法的Agent

为自定义加强学习算法创建代理。

特色的例子