这个例子展示了如何在Simulink®中训练一个深度q学习网络(DQN) agent用于车道保持辅助(LKA)。万博1manbetx有关DQN代理的更多信息,请参见深Q-Network代理.
本例的强化学习环境是一个简单的自我车辆动力学自行车模型。训练的目标是通过调整前转向角度来使自我车辆沿着车道的中心线行驶。这个例子使用了与在基于模型预测控制的车道保持辅助系统(模型预测控制工具箱).自我汽车动力学由下列参数指定。
m = 1575;车辆总质量(kg)工业区= 2875;偏航惯性矩% (mNs^2)如果= 1.2;重心到前胎纵向距离百分比(m)lr = 1.6;%重心到后胎纵向距离(m)Cf = 19000;前轮转弯刚度百分比(N/rad)Cr = 33000;后轮转弯刚度百分比(N/rad)Vx = 15;纵速度百分比(m/s)
定义样本时间Ts
和仿真时间T
在几秒钟内。
t = 0.1;T = 15;
LKA系统的输出是自我汽车的前转向角度。为了模拟自我汽车的物理限制,限制转向角度的范围[-0.5, 0.5]
rad。
u_min = -0.5;u_max = 0.5;
道路的曲率定义为常数0.001 ( ).横向偏差的初始值为0.2 m,相对偏航角的初始值为-0.1 rad。
ρ= 0.001;e1_initial = 0.2;e2_initial = -0.1;
打开模型。
mdl =“rlLKAMdl”;open_system (mdl);agentblk = [mdl' / RL代理'];
对于这个模型:
从agent到环境的转向角动作信号为-15°到15°。
从环境中观察到的是横向偏差 ,相对偏航角 ,他们的衍生品 和 ,以及它们的积分 和 .
当出现横向偏差时,模拟终止
奖励 ,提供在每个时间步骤 ,是
在哪里 控制输入是否来自前一个时间步骤 .
为自我车辆创建一个强化学习环境界面。为此,首先创建观察和操作规范。
observationInfo = rlNumericSpec([6 1],“LowerLimit”,负无穷* (6,1),“UpperLimit”,正* (6,1));observationInfo。Name =“观察”;observationInfo。描述=“横向偏差和相对偏航角信息”;actionInfo = rlFiniteSetSpec((15:15) *π/ 180);actionInfo。Name =“转向”;
然后,创建环境接口。
env = rl万博1manbetxSimulinkEnv (mdl agentblk、observationInfo actionInfo);
该界面有一个离散的行动空间,代理人可以应用31个可能的转向角度之一从-15度到15度。观测结果是包含侧向偏差、相对偏航角以及它们对时间的导数和积分的六维矢量。
若要定义横向偏差和相对偏航角的初始条件,请使用匿名函数句柄指定环境复位函数。这个复位函数随机化横向偏差和相对偏航角的初始值。
env。ResetFcn = @(在)localResetFcn(的);
修复随机生成器种子的再现性。
rng (0)
DQN代理使用价值函数批判表示来近似给定的观察和行动的长期回报。
DQN代理可以使用多输出q值批判逼近器,这通常更有效。多输出近似器将观察值作为输入,状态行为值作为输出。每个输出元素表示从观察输入所指示的状态中采取相应离散行动的预期累积长期回报。
要创建批评家,首先创建一个具有一个输入(六维观察状态)和一个具有31个元素(从-15到15度均匀间隔的转向角度)的输出向量的深度神经网络。有关创建深度神经网络值函数表示的更多信息,请参见创建策略和价值功能表示.
倪= observationInfo.Dimension (1);%输入次数(6)问= 24;神经元百分数没有=元素个数(actionInfo.Elements);%输出数量(31)dnn = [featureputlayer (nI,“归一化”,“没有”,“名字”,“状态”) fullyConnectedLayer(问,“名字”,“fc1”) reluLayer (“名字”,“relu1”) fullyConnectedLayer(问,“名字”,“取得”) reluLayer (“名字”,“relu2”) fullyConnectedLayer(不,“名字”,“一个fc3”文件));
查看网络配置。
图绘制(layerGraph(款)
为使用的批评家表示指定选项rlRepresentationOptions
.
criticOptions = rlRepresentationOptions (“LearnRate”1的军医,“GradientThreshold”,1,“L2RegularizationFactor”1的军医);
使用指定的深度神经网络和选项创建批评家表示。您还必须为评论家指定操作和观察信息,这些信息是从环境接口获得的。有关更多信息,请参见rlQValueRepresentation
.
评论家= rlQValueRepresentation(款、observationInfo actionInfo,...“观察”, {“状态”}, criticOptions);
要创建DQN代理,首先使用rlDQNAgentOptions
.
agentOptions = rlDQNAgentOptions (...“SampleTime”Ts,...“UseDoubleDQN”,真的,...“TargetSmoothFactor”1 e - 3,...“DiscountFactor”, 0.99,...“ExperienceBufferLength”1 e6,...“MiniBatchSize”, 64);
然后,使用指定的评论表示和代理选项创建DQN代理。有关更多信息,请参见rlDQNAgent
.
代理= rlDQNAgent(评论家,agentOptions);
要培训代理,首先指定培训选项。对于本例,使用以下选项:
每一集最多5000集,每一集最多持续装天花板(T / T)
时间的步骤。
在“插曲管理器”对话框中显示培训进度(设置情节
选项训练进步
),并禁用命令行显示(设置详细的
选项假
).
当情节奖励达到时停止训练1
.
为累积奖励大于的每一集保存一份代理副本-2.5
.
有关更多信息,请参见rlTrainingOptions
.
maxepisodes = 5000;maxsteps =装天花板(T / T);trainingOpts = rlTrainingOptions (...“MaxEpisodes”maxepisodes,...“MaxStepsPerEpisode”maxsteps,...“详细”假的,...“阴谋”,“训练进步”,...“StopTrainingCriteria”,“EpisodeReward”,...“StopTrainingValue”, 1...“SaveAgentCriteria”,“EpisodeReward”,...“SaveAgentValue”, -2.5);
训练代理人使用火车
函数。培训是一个计算密集型的过程,需要几个小时才能完成。为了节省运行此示例的时间,请通过设置加载预先训练过的代理doTraining
来假
.自己训练代理人,设置doTraining
来真正的
.
doTraining = false;如果doTraining培训代理商。trainingStats =火车(代理,env, trainingOpts);其他的%加载示例的预训练代理。负载(“万博1manbetxSimulinkLKADQNMulti.mat”,“代理”)结束
要验证经过训练的代理的性能,取消注释以下两行,并在环境中模拟该代理。有关代理模拟的更多信息,请参见rlSimulationOptions
和sim卡
.
% simOptions = rlSimulationOptions('MaxSteps', MaxSteps);% experience = sim(env,agent,simOptions);
为了演示在确定性初始条件下训练的agent,在Simulink中对模型进行仿真。万博1manbetx
e1_initial = -0.4;e2_initial = 0.2;sim (mdl)
如图所示,横向误差(顶部图)和相对偏航角(中间图)都接近于零。车辆从中心线(-0.4米)出发,偏航角误差非零(0.2 rad)。大约2.5秒后,车道保持辅助使小轿车沿中心线行驶。转向角度(下图)显示控制器在大约2秒后达到稳定状态。
关闭Simulink万博1manbetx模型。
如果~ doTraining% bdclose (mdl)结束
函数= localResetFcn(中)%重置= setVariable (,“e1_initial”, 0.5 *(1 + 2 *兰德));%横向偏差的随机值= setVariable (,“e2_initial”, 0.1 *(1 + 2 *兰德));%相对偏航角的随机值结束