用预先训练好的Actor网络训练DDPG Agent

此示例使用：

打开实时脚本

这个例子展示了如何在Simulink中训练一个深度确定性策略梯度(DDPG)代理，用于车道保持辅助(LKA)。万博1manbetx为了使训练更有效，DDPG代理的actor被初始化为一个深度神经网络，这个深度神经网络之前是用监督学习训练的。这个演员接受过训练模拟MPC控制器的车道保持辅助实例

有关DDPG代理的更多信息，请参见深度确定性策略梯度代理．

万博1manbetx仿真软件模型

车道保持应用的训练目标是通过调整前转向角度使自我车辆沿车道中心线行驶。这个例子使用了相同的自我车辆动力学和传感器动力学为车道保持辅助培训DQN代理实例

m=1575；%车辆总质量（kg）Iz=2875；%偏航惯性矩（mNs^2）lf=1.2；重心到前胎纵向距离百分比(m)lr = 1.6;%重心到后轮胎的纵向距离（m）Cf=19000；%前轮胎的转弯刚度（N/rad）Cr = 33000;%后轮胎的转弯刚度（N/rad）Vx=15；%纵向速度（m/s）

定义采样时间，Ts，以及模拟持续时间，T，以秒为单位。

Ts=0.1；T=15；

LKA系统的输出是ego车辆的前转向角。考虑到ego车辆的物理限制，将其转向角限制在[-60,60]度范围内。以弧度为单位指定限制。

u_min = -1.04;u_max = 1.04;

将道路曲率定义为常数0.001( $米^{- 1}$ ).

rho=0.001；

设置横向偏差的初始值(e1_initial)及相对偏航角(e2_initial).在培训期间，这些初始条件被设置为每个培训事件的随机值。

e1_初始值=0.2；e2_初始值=-0.1；

打开模型。

mdl='rlActorLKAMdl'; 开放式系统（mdl）

定义模型中RL代理块的路径。

agentblk=[mdl' / RL代理'];

创造环境

为自我车辆创建一个强化学习环境界面。为此，首先定义观察和操作规范。这些观察和动作与在模拟MPC控制器的车道保持辅助．

对环境的六个观测是横向速度 $v_{y}$ ，横摆率 $ψ_{}^{˙}$ ，横向偏移 $e_{1}$ ，相对偏航角 $e_{2}$ ，前一步的转向角度 $u_{0}$ ,曲率 $ρ$ ．

observationInfo=rlNumericSpec（[6 1]，．．．“LowerLimit”,负无穷* (6,1),“UpperLimit”,正* (6,1));observationInfo。Name =“观察”；

对环境的作用是前转向角。在创建动作规范对象时指定转向角度约束。

actionInfo=rlNumericSpec（[1]，“LowerLimit”u_min,“UpperLimit”，u_max）；actionInfo.Name=“转向”；

在该模型中，LKA块的信号处理创建观测向量信号，计算奖励函数，并计算停止信号。

奖赏 $r_{t}$ ，提供在每个时间步骤 $t$ ，如下，其中 $u$ 控制输入是否来自前一个时间步骤 $t - 1$ ．

$r_{t} ＝ - （ 10 e_{1}^{2} + 5 e_{2}^{2} + 2 u^{2} + 5 {e_{}^{˙}}_{1}^{2} + 5 {e_{}^{˙}}_{2}^{2} ）$

模拟在以下情况下停止： $| e_{1} | > 1$ ．

创建强化学习环境。

env=rlSi万博1manbetxmulinkEnv（mdl、agentblk、observationInfo、actionInfo）；

若要定义横向偏差和相对偏航角的初始条件，请使用匿名函数句柄指定环境复位函数。的本地重置FCN函数（在示例末尾定义）将初始横向偏差和相对偏航角设置为随机值。

env.ResetFcn=@（in）localResetFcn（in）；

修复随机生成器种子以获得再现性。

rng (0)

创建DDPG代理

DDPG代理使用批判价值函数表示来近似给定观察和行动的长期奖励。要创建批评家，首先要创建一个深度神经网络，它有两个输入，状态和动作，和一个输出。有关创建深度神经网络值函数表示的更多信息，请参见创建策略和价值功能表示．

批评家=CreateLaneKeeping批评家（观察信息、行动信息）；

DDPG代理使用参与者表示决定采取给定观察的动作。要创建参与者，首先创建一个具有一个输入（观察）和一个输出（动作）的深层神经网络。

[actor，actorOptions]=createLaneKeepingActor（观测信息，actionInfo）；

这些初始的行动者和评论家网络具有随机的初始参数值。

要创建DDPG代理，首先指定DDPG代理选项。

agentOptions = rlDDPGAgentOptions (．．．“采样时间”，Ts，．．．“目标平滑因子”1 e - 3,．．．“ExperienceBufferLength”1 e6,．．．“折扣演员”, 0.99,．．．“MiniBatchSize”,64．．．)；agentOptions.NoiseOptions.Variance=0.3；agentOptions.NoiseOptions.VarianceDecayRate=1e-5；

使用指定的参与者表示、评论家表示和代理选项创建DDPG代理。有关详细信息，请参阅rlDDPGAgent．

代理=rlDDPGAgent（演员、评论家、代理）；

列车员

作为基线，用一个具有随机初始参数的参与者来训练agent。要培训代理，首先指定培训选项。对于本示例，请使用以下选项。

跑步训练最多50000集，每集最多持续150个时间步。
在“事件管理器”对话框中显示培训进度。
当情节奖励达到–1时停止训练。
为累积奖励大于-2.5．

有关详细信息，请参阅RL培训选项．

maxepisodes = 50000;maxsteps = T / T;trainingOpts = rlTrainingOptions (．．．“最大集”maxepisodes,．．．“MaxStepsPerEpisode”，maxsteps，．．．“冗长”错误的．．．“阴谋”，“训练进步”，．．．“StopTrainingCriteria”，“EpisodeReward”，．．．“停止训练值”,-1,．．．“SaveAgentCriteria”，“EpisodeReward”，．．．“SaveAgentValue”,-2.5);

使用火车培训是一个计算密集型的过程，需要几个小时才能完成。要在运行此示例时节省时间，请通过设置溺爱来错误的. 要亲自训练特工，设置溺爱来符合事实的．

doTraining = false;如果溺爱培训代理商。trainingStats =火车(代理,env, trainingOpts);其他的%为示例加载预训练代理。负载(“ddpgFromScratch.mat”);终止

训练有预训练演员的经纪人

您可以将代理的参与者网络设置为以前训练过的深度神经网络模拟MPC控制器的车道保持辅助这个网络被训练成使用监督学习来模拟模型预测控制器。

加载预训练的参与者网络。

负载(“仿制empcnetactorobj.mat”，“模仿北京”);

使用预训练的参与者创建参与者表示。

supervisedActor = rlDeterministicActorRepresentation (imitateMPCNetObj observationInfo actionInfo,．．．“观察”，模仿empcnetobj.InputNames，“行动”,{“Scale1”}，动植物）；

检查用户使用的网络监工与加载的相同。为此，请使用相同的随机输入观察来评估网络和代理。

testData=rand（6,1）；

评估深度神经网络。

predictImNN =预测(imitateMPCNetObj testData”);

评价演员。

evaluateRLRep=getAction（supervisedActor，{testData}）；

比较结果。

错误=evaluateRLRep{:}-predictImNN

错误=单0

使用预先训练的actor创建DDPG代理。

代理= rlDDPGAgent (supervisedActor,评论家,agentOptions);

减少最大训练次数，并使用火车要在运行此示例时节省时间，请通过设置溺爱来错误的. 要亲自训练特工，设置溺爱来符合事实的．

trainingOpts。MaxEpisodes = 5000;doTraining = false;如果溺爱培训代理商。trainingStats =火车(代理,env, trainingOpts);其他的%为示例加载预训练代理。负载(“ddpgFromPretrained.mat”);终止

通过使用预训练的参与者网络，DDPG代理的训练效率更高。总训练时间和训练步骤总数都提高了约20%。此外，接近最佳结果附近的训练次数从约4500次减少到约3500次。

模拟DDPG代理

要验证经过培训的代理的性能，取消注释以下两行代码，并在环境中进行模拟。有关代理模拟的更多信息，请参见模拟选项和模拟．

% simOptions = rlSimulationOptions('MaxSteps'， MaxSteps);% experience = sim(env,agent,simOptions);

要检查Simulink模型中训练过的代理的性能，请使用前面定义的初始条件(万博1manbetxe1_initial = 0.2和e2_initial = -0.1).

sim (mdl)

如下图所示，横向误差（中间图）和相对偏航角（底部图）均被驱动至零。车辆从中心线的横向偏差（0.2 m）和非零偏航角误差（-0.1 rad）启动。车道保持控制器使ego车辆在大约两秒钟后沿中心线行驶。转向角（上图）显示控制器在大约两秒钟后达到稳定状态。

关闭Simulink万博1manbetx模型而不保存任何更改。

bdclose（mdl）

局部函数

作用= localResetFcn(中)%设置横向偏差的随机值。= setVariable (,“e1_initial”, 0.5 *(1 + 2 *兰德));%设置相对偏航角的随机值。= setVariable (,“e2_initial”, 0.1 *(1 + 2 *兰德));终止作用agent=loadPretrainedParams（agent、actorParams、criticParams）%设置参与者参数。actor=getActor（agent）；pretrainedActor=setLearnableParameters（actor，actorParams）；%设置关键参数。评论家= getCritic(代理);pretrainedCritic = setLearnableParameters(评论家,criticParams);%在代理中设置参与者和批评家表示。agent=setActor（agent，pretrainedActor）；agent=setCritic（agent，pretrainedCritic）；终止

另请参阅

火车|rlDDPGAgent

用预先训练好的Actor网络训练DDPG Agent

万博1manbetx仿真软件模型

创造环境

创建DDPG代理

列车员

训练有预训练演员的经纪人

模拟DDPG代理

局部函数

另请参阅

相关话题

强化学习工具箱文档

万博1manbetx

基于MATLAB和Simulink的强化学习万博1manbetx