이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。
훈련및검
강화학습에이전트훈련및시뮬레이션하기
강화학습에이전트는최적의정책을학습하기위해반복적인시행착오과정을거치면서환경과상호작용합니다。에이전트는훈련이진행되는동안정책표현의파라미터를조정하여장기보상을최대화합니다。强化学习工具箱™는시뮬레이션을통해에이전트를훈련하고훈련결과를검증하는함수를제공합니다。자세한내용은训练强化学习代理항목을참조하십시오。
앱
강화학습디자이너 | 강화학습에이전트설계,훈련및시뮬레이션 |
함수
블록
RL代理 | 강화학습에이전트 |
도움말항목
훈련및시뮬레이션기본사항
- 训练强化学习代理
通过在指定环境中训练您的代理来找到最优策略。 - 기본그리드월드에서강화학습에이전트훈련시키기
MATLAB®에서그리드월드를풀도록q -러닝및sarsa에이전트를훈련시킵니다。 - MDP환경에서강화학습에이전트훈련시키기
일반마르코프결정과정환경에서강화학습에이전트를훈련시킵니다。 - 万博1manbetxSimulink환경만들기및에이전트훈련시키기
万博1manbetx®에서훈련환경으로모델링된플랜트에강화학습을사용하여제어기를훈련시킵니다。
강화학습디자이너앱사용하기
- 使用强化学习设计器设计和训练智能体
设计和训练一个车杆系统的DQN代理强化学习设计师应用程序。 - 在强化学习设计器中指定模拟选项
交互式地指定模拟强化学习代理的选项。 - 在强化学习设计器中指定训练选项
交互式地指定训练强化学习代理的选项。
다중프로세스및gpu사용하기
- 使用并行计算和图形处理器训练代理
通过在多核、gpu、集群或云资源上并行运行模拟来加速代理训练。 - 用并行计算训练交流代理平衡车杆系统
使用异步并行计算训练actor-批评家代理。 - 利用并行计算训练DQN Agent的车道保持辅助
使用并行计算为自动驾驶应用程序训练强化学习代理。
MATLAB환경에서에이전트훈련하기
- 训练DDPG Agent控制双积分系统
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。 - 用基线训练PG Agent控制双积分系统
训练带有基线的策略梯度来控制MATLAB建模的双积分系统。 - 카트-폴시스템의균형을유지하도록DQN에이전트훈련시키기
MATLAB에서모델링된카트-폴시스템의균형을유지하도록심층Q -러닝신경망에이전트를훈련시킵니다。 - 训练PG代理人平衡车杆系统
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。 - 训练交流代理人平衡车杆系统
训练一个actor-critic代理来平衡MATLAB建模的车杆系统。 - 训练DDPG Agent用图像观察摆动和平衡摆
使用基于图像的观察信号训练一个强化学习代理。 - 使用深度网络设计器创建代理,并使用图像观察进行训练
使用深度学习工具箱中的深度网络设计器应用程序创建一个强化学习代理。
万博1manbetx환경에서에이전트훈련하기
- 训练DQN代理人摆动和平衡摆
训练一个Deep Q-network代理来平衡Simulink中建模的钟摆。万博1manbetx - 진자가위쪽으로똑바로서서균형을유지하도록DDPG에이전트훈련시키기
万博1manbetx仿真软件에서모델링된진자의균형을유지하도록DDPG(深决定性策略梯度:심층결정적정책경사법)에이전트를훈련시킵니다。 - 训练DDPG代理用总线信号摆动和平衡摆锤
训练一个强化学习代理来平衡一个摆Simulink模型,该模型包含总线信号中的观测值。万博1manbetx - 训练DDPG代理人摆动和平衡车杆系统
训练一个深度确定性策略梯度代理来摆动和平衡一个建模的车杆系统Simscape™多体™.
다중에이전트훈련
- 여러개의에이전트가협업해서작업을수행하도록훈련시키기
두ppo에이전트가협업하여객체를옮기는훈련을수행합니다。 - 为区域覆盖培训多名特工
训练三名PPO代理以协作-竞争的方式探索网格世界环境。 - 训练多智能体路径跟随控制
训练DQN和DDPG代理协同执行自适应巡航控制和车道保持辅助以跟踪路径。
제어사양에서보상생성하기
- 从伺服电机的模型预测控制器生成奖励函数
从应用于伺服电机的MPC控制器生成奖励函数。 - 从水箱系统的模型验证块生成奖励函数
从应用于水箱系统的模型验证块生成奖励函数。
모방 학습
- 模拟MPC控制器的车道保持辅助
训练深度神经网络来模仿车道保持辅助系统中模型预测控制器的行为。 - 飞行机器人非线性MPC控制器仿真
训练深度神经网络来模拟飞行机器人的非线性模型预测控制器的行为。 - 用预训练的Actor网络训练DDPG Agent
使用之前使用监督学习训练过的参与者网络训练强化学习代理。
사용자지정에이전트및훈련알고리즘
- 培训自定义LQR代理
培训自定义LQR代理。 - 使用自定义训练循环训练强化学习策略
使用您自己的自定义训练算法训练一个强化学习策略。 - 自定义训练循环与Simulink动作噪声万博1manbetx
当模型中产生动作噪声时,使用自定义训练循环在Simulink中训练强化学习策略。万博1manbetx - 为自定义强化学习算法创建代理
为自定义强化学习算法创建代理。