使用强化学习代理训练双足机器人行走

这个例子使用了:

打开实时脚本

这个例子展示了如何使用深度确定性策略梯度(DDPG)代理和双延迟深度确定性策略梯度(TD3)代理来训练一个双足机器人行走。在本例中，还比较了这些经过训练的代理的性能。本例中的机器人是在Simscape™Multibody™中建模的。

有关这些代理的更多信息，请参见深度确定性策略梯度代理而且双延迟深度确定性策略梯度代理．

为了在本例中进行比较，本例使用相同的模型参数在双足机器人环境中训练两个智能体。该示例还将代理配置为具有下列共同设置。

双足机器人的初始条件策略
演员和评论家的网络结构，灵感来自[1]
演员和评论家代表的选项
培训选项(样本时间，折扣因子，小批量大小，经验缓冲长度，探索噪声)

双足机器人模型

本例的强化学习环境是一个两足机器人。训练目标是用最小的控制力使机器人走直线。

将模型的参数加载到MATLAB®工作区中。

robotParametersRL

打开Simulin万博1manbetxk模型。

mdl =“rlWalkingBipedRobot”；open_system (mdl)

该机器人使用Simscape Multibody建模。

对于这个模型:

保持中立的0度姿势，双腿伸直，脚踝平放。
脚接触模型使用空间接触力(Simscape多体)块。
代理可以通过施加扭矩信号来控制机器人两条腿上的3个独立关节(脚踝、膝盖和臀部)3来3.N·m。实际计算的动作信号之间的标准化－1而且1．

环境向代理提供了以下29个观察结果。

躯干重心的Y(横向)和Z(垂直)平移。在Z方向上的平移被归一化到与其他观测值相似的范围。
X(向前)，Y(横向)，Z(垂直)平移速度。
躯干的偏航，俯仰和滚动角度。
躯干的偏航、俯仰和滚动角速度。
双腿三个关节(脚踝，膝盖，臀部)的角度位置和速度。
前一个时间步骤中的动作值。

如果出现下列情况之一，则插曲终止。

机器人躯干质心在Z方向上小于0.1 m(机器人跌倒)或在Y方向上大于1m(机器人侧移太远)。
横摇、俯仰或偏航的绝对值大于0.7854 rad。

以下奖励函数 $r_{t}$ ，每个时间步提供的，灵感来自[2]。

$r_{t} ＝ v_{x} - {3. y}^{2} - 50 {\hat{z}}^{2} + 25 \frac{Ts}{特遣部队} - 0 ． 02 \sum_{我} {u_{t - 1}^{我}}^{2}$

在这里:

$v_{x}$ 为机器人X方向(向前向目标方向)的平移速度。
$y$ 是机器人从目标直线轨迹的横向平移位移。
$\hat{z}$ 为机器人质心的归一化垂直平移位移。
$u_{t - 1}^{我}$ 扭矩来自关节吗我从之前的时间步长。
$Ts$ 是环境的采样时间。
$特遣部队$ 是环境的最终模拟时间。

这个奖励函数通过为正向的前进速度提供正向的奖励来鼓励代理前进。它还通过提供恒定的奖励( $25 \frac{Ts}{特遣部队}$ )。奖励函数中的其他术语是对横向和垂直转换的实质性变化以及对过度控制努力的使用的惩罚。

创建环境界面

创建观察规范。

numObs = 29;obsInfo = rlNumericSpec([numObs 1]);obsInfo。Name =“观察”；

创建动作规范。

numAct = 6;actInfo = rlNumericSpec([numAct 1]，“LowerLimit”, 1“UpperLimit”1);actInfo。Name =“foot_torque”；

为行走机器人模型创建环境接口。

BLK = [mdl，' / RL代理'];env = rl万博1manbetxSimulinkEnv(mdl,blk,obsInfo,actInfo);env。ResetFcn = @(in) walkerResetFcn(in,upper_leg_length/100,lower_leg_length/100,h/100);

选择并创建培训代理

本例提供了使用DDPG或TD3代理训练机器人的选项。要使用所选的代理模拟机器人，请设置AgentSelection相应的国旗。

AgentSelection =“TD3”；开关AgentSelection情况下“DDPG”agent = createDDPGAgent(numObs,obsInfo,numAct,actInfo,Ts);情况下“TD3”agent = createTD3Agent(numObs,obsInfo,numAct,actInfo,Ts);否则disp ('输入DDPG或TD3 for AgentSelection'）结束

的createDDPGAgent而且createTD3AgentHelper函数执行以下操作。

建立演员和评论家网络。
指定参与者和评论家表示的选项。
使用创建的网络和指定的选项创建演员和评论家表示。
配置代理特定的选项。
创建代理。

DDPG代理

DDPG代理使用临界值函数表示来近似给定观察和操作的长期奖励。DDPG代理通过使用参与者表示来决定对给定的观察采取何种操作。这个例子中的演员和评论家网络是受到[1]的启发。

创建DDPG代理的详细信息请参见createDDPGAgenthelper函数。有关配置DDPG代理选项的信息，请参见rlDDPGAgentOptions．

有关创建深度神经网络值函数表示的更多信息，请参见创建策略和值函数表示．有关为DDPG代理创建神经网络的示例，请参见训练DDPG Agent控制双积分系统．

TD3代理

TD3代理使用两个临界值函数表示来近似给定观察和行动的长期奖励。TD3代理使用参与者表示决定给定的观察采取何种操作。用于此代理的参与者和评论家网络的结构与用于DDPG代理的结构相同。

DDPG代理可能会高估Q值。由于智能体使用Q值更新其策略(参与者)，因此得到的策略可能是次优的，并且积累的训练误差可能导致发散的行为。TD3算法是DDPG的扩展，通过防止Q值[3]的高估使其更加健壮。

两个评论家网络- TD3代理独立学习两个评论家网络，并使用最小值函数估计来更新行动者(策略)。这样做可以防止在后续步骤中积累错误和高估Q值。
添加目标策略噪声——将剪切噪声添加到值函数中，使Q函数值在类似的操作中平滑。这样做可以防止学习一个不正确的尖峰噪声值估计。
延迟策略和目标更新——对于TD3代理，延迟参与者网络更新允许Q函数在更新策略之前有更多时间来减少错误(更接近所需的目标)。这样做可以防止价值估计中的差异，并导致更高质量的策略更新。

关于创建TD3代理的详细信息，请参见createTD3Agenthelper函数。有关配置TD3代理选项的信息，请参见rlTD3AgentOptions．

指定培训选项和培训代理

对于本例，DDPG和TD3代理的培训选项是相同的。

每个训练课程运行2000集，每集最多持续2000集maxSteps时间的步骤。
在“事件管理器”对话框中显示培训进度情节选项)并禁用命令行显示(设置详细的选项)。
只有当训练达到最大次数时才终止训练(maxEpisodes)．这样做可以在整个训练过程中比较多个代理的学习曲线。

有关更多信息和其他选项，请参见rlTrainingOptions．

maxEpisodes = 2000;maxSteps = floor(Tf/Ts);trainOpts = rlTrainingOptions(.．.“MaxEpisodes”maxEpisodes,.．.“MaxStepsPerEpisode”maxSteps,.．.“ScoreAveragingWindowLength”, 250,.．.“详细”假的,.．.“阴谋”，“训练进步”，.．.“StopTrainingCriteria”，“EpisodeCount”，.．.“StopTrainingValue”maxEpisodes,.．.“SaveAgentCriteria”，“EpisodeCount”，.．.“SaveAgentValue”, maxEpisodes);

要并行地训练代理，请指定以下训练选项。并行训练需要并行计算工具箱™。如果没有安装并行计算工具箱软件，请设置UseParallel来假．

设置UseParallelt选项街．
并行异步地训练代理。
在每32步之后，让每个工作人员将经验发送到并行池客户端(开始培训的MATLAB®过程)。DDPG和TD3代理要求工人将经验发送给客户。

trainOpts。UseParallel = true;trainOpts.ParallelizationOptions.Mode =“异步”；trainoptions . parallelizationoptions . stepsuntildataissent = 32;trainOpts.ParallelizationOptions.DataToSendFromWorkers =“经验”；

培训代理使用火车函数。这个过程计算量很大，每个代理都需要几个小时才能完成。为了在运行此示例时节省时间，请通过设置加载预训练的代理doTraining来假．要亲自训练特工，请设置doTraining来真正的．由于并行训练中的随机性，您可以从下面的图中获得不同的训练结果。接受预训练的特工由四名工作人员并行训练。

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainOpts);其他的为所选代理类型加载预训练的代理。如果比较字符串(AgentSelection“DDPG”)负载(“rlWalkingBipedRobotDDPG.mat”，“代理”）其他的负载(“rlWalkingBipedRobotTD3.mat”，“代理”）结束结束

对于前面的示例训练曲线，DDPG和TD3代理的每个训练步骤的平均时间分别为0.11和0.12秒。TD3代理每一步需要更多的训练时间，因为它更新两个评论家网络，而DDPG只更新一个评论家。

模拟训练有素的代理

固定随机生成器种子的再现性。

rng (0)

为了验证训练后的智能体的性能，在双足机器人环境中进行了仿真。有关代理模拟的详细信息，请参见rlSimulationOptions而且sim卡．

simOptions = rlSimulationOptions(“MaxSteps”, maxSteps);experience = sim(env,agent,simOptions);

比较座席性能

对于下面的代理比较，每个代理训练五次，每次使用不同的随机种子。由于随机探索噪声和并行训练的随机性，每次运行的学习曲线是不同的。由于多次运行的代理训练需要几天时间才能完成，因此此比较使用预训练的代理。

对于DDPG和TD3代理，绘制集奖励(顶部图)和集Q0值(底部图)的平均值和标准差。章节Q0值是评论家根据对环境的初始观察，在每一章节开始时对折现的长期奖励的估计。对于一个精心设计的评论家来说，Q0的价值接近真正的折现长期奖励。

comparePerformance (“DDPGAgent”，“TD3Agent”）

根据学习曲线比较图:

DDPG代理似乎学习得更快(平均在第600集左右)，但会达到局部最小值。TD3启动较慢，但最终获得比DDPG更高的奖励，因为它避免了Q值的高估。
TD3制剂在学习曲线上表现出稳定的改善，这表明与DDPG制剂相比，TD3制剂的稳定性有所提高。

根据第Q0集的比较情节:

对于TD3制剂，评论家对折扣长期奖励(2000集)的估计低于DDPG制剂。这种差异是因为TD3算法在更新目标时采用了一种保守的方法，它使用最少两个Q函数。由于对目标的延迟更新，这种行为会进一步增强。
虽然这2000集的TD3估计值较低，但与DDPG制剂不同，TD3制剂在Q0集值中显示出稳定的增长。

在这个例子中，训练在2000集时停止。对于更大的训练周期，TD3代理的估计值稳步增加，表明有可能收敛到真正的折现长期奖励。

有关如何使用DDPG代理训练类人机器人行走的另一个示例，请参见训练人形步行者(Simscape多体)．有关如何使用DDPG代理训练四足机器人行走的示例，请参见基于DDPG Agent的四足机器人运动．

参考文献

利利克拉普、蒂莫西·P.、乔纳森·j·亨特、亚历山大·普里策尔、尼古拉斯·赫斯、汤姆·埃雷兹、尤瓦尔·塔萨、大卫·西尔弗和达安·威尔斯特拉。“深度强化学习的持续控制。”预印本，提交于2019年7月5日。https://arxiv.org/abs/1509.02971．

Heess, Nicolas, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne, Yuval Tassa等。“丰富环境中运动行为的出现。”预印本，2017年7月10日提交。https://arxiv.org/abs/1707.02286．

[3]藤本，斯科特，赫尔克·范霍夫和大卫·梅格。在actor -批评家方法中寻址函数逼近误差。预印本，2018年10月22日提交。https://arxiv.org/abs/1802.09477．