用预训练的Actor网络训练DDPG代理

此示例使用：

打开生活的脚本

此示例显示了如何在Simulink中为车道保持辅助（LKA）训练深度确定性策略梯度（DDPG）代理。为了提高训练效率，DDPG代理的参与者使用一个深度神经网络进行初始化，该神经网络以前使用监督学习进行过训练。该参与者在万博1manbetx用于车道保持辅助的模拟MPC控制器实例

有关DDPG代理的更多信息，请参阅深度确定性策略梯度代理．

万博1manbetxSimulink模型

车道保持应用程序的培训目标是通过调整前转向角来保持ego车辆沿车道中心线行驶。此示例使用和前转向角相同的ego车辆动力学和传感器动力学为车道保持辅助培训DQN代理实例

m = 1575;%车辆总质量（kg）工业区= 2875;%偏航惯性矩（mNs^2）如果= 1.2;%重心到前轮胎的纵向距离（m）lr=1.6；%重心到后胎纵向距离(m)Cf=19000；前轮转弯刚度百分比(N/rad)Cr=33000；%后轮胎的转弯刚度（N/rad）Vx=15；纵速度百分比(m/s)

定义采样时间，Ts，和模拟持续时间，T，以秒为单位。

Ts=0.1；T=15；

LKA系统的输出是ego车辆的前转向角。考虑到ego车辆的物理限制，将其转向角限制在[-60,60]度范围内。以弧度为单位指定限制。

u_最小值=-1.04；u_最大值=1.04；

将道路曲率定义为常数0.001( $M^{- 1.}$ ).

ρ= 0.001;

设置横向偏差的初始值(e1_首字母)和相对偏航角(e2_首字母).在培训期间，这些初始条件被设置为每个培训事件的随机值。

e1_初始值=0.2；e2_初始值=-0.1；

打开模型。

mdl='rlActorLKAMdl'；开放式系统（mdl）

定义模型中RL代理块的路径。

agentblk=[mdl“/RL代理”];

创建环境

为ego车辆创建强化学习环境界面。为此，首先定义观察和行动规范。这些观察和行动与中使用的监督学习功能相同用于车道保持辅助的模拟MPC控制器．

对环境的六个观测是横向速度 $v_{Y}$ ,偏航率 $ψ_{}^{˙}$ ，横向偏移 $E_{1.}$ ，相对偏航角 $E_{2.}$ ，上一步的转向角 $U_{0}$ ，和曲率 $ρ$ ．

observationInfo=rlNumericSpec（[6 1]，...“LowerLimit”，-inf*one（6,1），“上限”，inf*one（6,1））；observationInfo.Name=“观察”;

环境的操作是前转向角。在创建操作规范对象时指定转向角约束。

actionInfo = rlNumericSpec([1 1]，“LowerLimit”，吴敏，“上限”，u_max）；actionInfo.Name=“转向”;

在模型中，LKA块的Signal Processing生成观测矢量信号，计算奖励函数，并计算停止信号。

奖赏 $R_{T}$ ，在每个时间步提供 $T$ ，如下所示，其中 $U$ 是来自上一时间步的控制输入 $T - 1.$ ．

$R_{T} = - (1. 0 E_{1.}^{2.} + 5. E_{2.}^{2.} + 2. U^{2.} + 5. {E_{}^{˙}}_{1.}^{2.} + 5. {E_{}^{˙}}_{2.}^{2.})$

当 $| E_{1.} | > 1.$ ．

创建强化学习环境。

env = rl万博1manbetxSimulinkEnv (mdl agentblk、observationInfo actionInfo);

要定义横向偏差和相对偏航角的初始条件，请使用匿名函数句柄指定环境重置函数本地重置FCN函数，在示例的最后定义，设置初始横向偏差和相对偏航角为随机值。

env.ResetFcn=@（in）localResetFcn（in）；

修复随机生成器种子以获得再现性。

rng（0）

创建DDPG代理

DDPG代理使用临界值函数表示法近似给定观察和行动的长期回报。要创建临界值，首先创建一个包含两个输入、状态和行动以及一个输出的深度神经网络。有关创建深度神经网络值函数表示法的更多信息，请参阅创建策略和值函数表示．

批评家=CreateLaneKeeping批评家（观察信息、行动信息）；

DDPG代理使用参与者表示决定采取给定观察的动作。要创建参与者，首先创建一个具有一个输入（观察）和一个输出（动作）的深层神经网络。

[actor，actorOptions]=createLaneKeepingActor（观测信息，actionInfo）；

这些初始参与者和评论家网络具有随机的初始参数值。

要创建DDPG代理，请首先指定DDPG代理选项。

agentOptions=rlDDPGAgentOptions(...“采样时间”Ts,...“TargetSmoothFactor”，1e-3，...“经验缓冲长度”，1e6，...“折扣演员”,0.99,...“MiniBatchSize”, 64年...)；agentOptions.NoiseOptions.Variance=0.3；agentOptions.NoiseOptions.VarianceDecayRate=1e-5；

使用指定的参与者表示、评论家表示和代理选项创建DDPG代理。有关详细信息，请参阅RLDDPG试剂．

代理= rlDDPGAgent(演员、评论家、agentOptions);

列车员

作为基线，使用具有随机初始参数的参与者培训代理。要培训代理，首先指定培训选项。对于本例，使用以下选项。

进行最多50000集的训练，每集最多持续150个时间步。
在“事件管理器”对话框中显示培训进度。
当情节奖励达到–1时停止训练。
为累积奖励大于-2.5．

有关详细信息，请参阅RL培训选项．

最大事件数=50000；最大步骤数=T/Ts；训练点=RL训练选项(...“最大集”，每集，...“MaxStepsPerEpisode”，maxsteps，...“冗长”假的,...“情节”,“培训进度”,...“停止培训标准”,“情节报酬”,...“停止训练值”,-1,...“SaveAgentCriteria”,“情节报酬”,...“SaveAgentValue”,-2.5);

训练代理人使用火车培训是一个计算密集型的过程，需要几个小时才能完成。要在运行此示例时节省时间，请通过设置溺爱到错误的．自己训练代理人，设置溺爱到真正的．

doTraining = false;如果溺爱%培训代理人。培训状态=培训（代理人、环境、培训点）；其他的%为示例加载预训练代理。装载(“ddpgFromScratch.mat”);终止

训练有预训练演员的经纪人

您可以将代理的参与者网络设置为以前训练过的深度神经网络用于车道保持辅助的模拟MPC控制器这个网络被训练成使用监督学习来模拟模型预测控制器。

加载预先训练的演员网络。

装载(“仿制empcnetactorobj.mat”,“模仿北京”);

使用预训练的参与者创建参与者表示。

supervisedActor=rlDeterministicActorRepresentation（模仿EMPCNETOBJ、observationInfo、actionInfo、，...“观察”，模仿empcnetobj.InputNames，“行动”, {“Scale1”}, actorOptions);

请检查所使用的网络监工与加载的相同。为此，请使用相同的随机输入观察来评估网络和代理。

testData=rand（6,1）；

评价深层神经网络。

predictImNN=预测（模仿empcnetobj，testData'）；

评价演员。

evaluateRLRep=getAction（supervisedActor，{testData}）；

比较结果。

error = evaluateRLRep{:} - predictImNN . error

错误=仅有一个的0

使用预先训练的参与者创建DDPG代理。

代理人=rlDDPGAgent（监督代理人、评论家、代理人）；

减少最大训练次数，并使用火车函数。为了节省运行此示例的时间，请通过设置加载预先训练过的代理溺爱到错误的．自己训练代理人，设置溺爱到真正的．

trainingOpts.maxsecutes=5000；doTraining=false；如果溺爱%培训代理人。培训状态=培训（代理人、环境、培训点）；其他的%为示例加载预训练代理。装载(“ddpgFromPretrained.mat”);终止

利用预先训练好的行动者网络，可以提高DDPG agent的训练效率。总的训练时间和总的训练步数都提高了大约20%。同时，接近最佳结果的训练的集数从大约4500减少到大约3500。

模拟DDPG代理

要验证经过培训的代理的性能，请取消注释以下两行并在环境中对其进行模拟。有关代理模拟的更多信息，请参阅rlSimulationOptions和模拟．

%simOptions=rlSimulationOptions（'MaxSteps'，MaxSteps）；%经验=模拟（环境、代理、模拟选项）；

要检查Simulink模型中经过训练的代理的性能，请使用先前定义的初始条件模拟模型(万博1manbetxe1_初始值=0.2和e2_初始值=-0.1).

sim卡（mdl）

如下图所示，横向误差（中间图）和相对偏航角（底部图）均被驱动至零。车辆从中心线的横向偏差（0.2 m）和非零偏航角误差（-0.1 rad）启动。车道保持控制器使ego车辆在大约两秒钟后沿中心线行驶。转向角（上图）显示控制器在大约两秒钟后达到稳定状态。

关闭Simulink万博1manbetx模型而不保存任何更改。

bdclose（mdl）

局部函数

函数in=localResetFcn（in）%设置横向偏差的随机值。in=设置变量（in，“e1_首字母”，0.5*（-1+2*兰德））；%设置相对偏航角的随机值。in=设置变量（in，“e2_首字母”，0.1*（-1+2*兰德））；终止函数agent=loadPretrainedParams（agent、actorParams、criticParams）%设置角色参数。演员= getActor(代理);pretrainedActor = setLearnableParameters(演员,actorParams);%设置关键参数。批评家=getCritic（代理）；pretrainedCritic=setLearnableParameters（批评家，criticParams）；%在代理中设置参与者和批评家表示。agent=setActor（agent，pretrainedActor）；agent=setCritic（agent，pretrainedCritic）；终止

另见

火车|RLDDPG试剂

用预训练的Actor网络训练DDPG代理

万博1manbetxSimulink模型

创建环境

创建DDPG代理

列车员

训练有预训练演员的经纪人

模拟DDPG代理

局部函数

另见

相关的话题

强化学习工具箱文档

万博1manbetx

基于MATLAB和Simulink的强化学习万博1manbetx