培训强化学习代理-MATLAB和Simulink-英国MathWorks万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

训练强化学习代理

创建环境和强化学习代理后，可以使用火车函数。要配置培训，请使用RL培训选项函数。例如，创建一个培训选项集选择，以及火车代理人代理在环境env．

选择= rlTrainingOptions (．..“最大集”, 1000,．..“MaxStepsPerEpisode”, 1000,．..“StopTrainingCriteria”，“平均向上”，．..“停止训练值”,480); trainStats=列车（代理、环境、选择）；

有关创建代理的详细信息，请参阅强化学习代理。有关创建环境的详细信息，请参阅创建MATLAB强化学习环境和创建Simul万博1manbetxink强化学习环境．

火车随着培训的进行，更新代理。为了保存原始代理参数供以后使用，请将代理保存到mat -文件中。

保存(“initialAgent.mat”，“代理人”）

当您在中指定的条件满足时，培训将自动终止StopTrainingCriteria和StopTrainingValue选择你的RL培训选项对象感到满意。若要手动终止正在进行的培训，输入Ctrl+C或者，在“强化学习集管理器”中单击停止训练．因为火车每集更新代理，您可以通过呼叫恢复培训火车(代理,env, trainOpts)同样，在不丢失第一次调用火车．

训练算法

通常，培训执行以下步骤。

初始化代理。
每集:
1. 重置环境。
2. 获得初步观察年代₀从环境中。
3. 计算初始作用一个₀＝μ（年代₀),μ（年代)是现行政策。
4. 将当前操作设置为初始操作(一个←一个₀)，并将当前观察设置为初始观察(年代←年代₀）.
5. 当剧集尚未结束或终止时，请执行以下步骤。
  1. 应用操作一个对环境和获得下一个观察年代”和奖励r．
  2. 从经验中学习(年代，一个，r，年代）.
  3. 计算下一个动作a'＝μ（年代）.
  4. 用下一个操作更新当前操作(一个←a')，并将当前的观察结果更新为下一个观察结果(年代←年代）.
  5. 如果满足环境中定义的终止条件，则终止该事件。
如果满足培训终止条件，则终止培训。否则，开始下一集。

软件执行这些步骤的具体方式取决于代理和环境的配置。例如，如果您将环境配置为随机化初始状态值，则在每集开始时重置环境可能包括随机化初始状态值。有关代理及其训练算法的更多信息，请参阅强化学习代理．要使用并行处理和gpu来加速训练，请参阅使用并行计算和GPU训练代理．

事件管理器

默认情况下，调用火车函数打开Reinforcement Learning Episode Manager，它让您可视化培训进度。“剧集经理”情节显示了每一集的奖励(EpisodeReward)和运行平均奖励价值(平均向)此外，对于有评论家的经纪人，情节显示了评论家在每集开始时对折扣长期报酬的估计(EpisodeQ0）.章节管理器还显示各种章节和培训统计数据。你也可以用the火车函数返回剧集和培训信息。

对于有评论家的经纪人，第Q0集是在给定初始环境观察的情况下，每一事件开始时对贴现长期回报的估计。随着培训的进行，如果评论家是精心设计的。第Q0集接近真实的长期折扣报酬，如上图所示。

要关闭强化学习集管理器，请设置情节选择RL培训选项来“没有”．

拯救候选代理人

在培训期间，您可以保存满足您在SaveAgentCriteria和SaveAgentValue选择你的RL培训选项对象。例如，您可以保存任何集奖励超过一定值的代理，即使还未满足终止训练的总体条件。例如，当情节奖励大于100．

选择= rlTrainingOptions (“SaveAgentCriteria”，“EpisodeReward”，“SaveAgentValue”, 100年);

火车将保存的代理存储在MAT文件中使用指定的文件夹中SaveAgentDirectory选择RL培训选项。保存的代理可能很有用，例如，用于测试在长时间运行的培训过程中生成的候选代理。有关保存条件和保存位置的详细信息，请参阅RL培训选项．

训练完成后，可以从MATLAB中保存最终训练的agent^®工作空间使用节约函数。例如，保存代理myAgent到文件finalAgent.mat在当前工作目录中。

保存(选择。SaveAgentDirectory +“/ finalAgent.mat”，“代理”）

缺省情况下，保存DDPG和DQN代理时，不保存体验缓冲区数据。如果您计划进一步培训所保存的代理，可以从以前的经验缓冲区作为起点开始培训。在本例中，设置SaveExperienceBufferWithAgent选择真的。对于某些代理，例如具有较大经验缓冲区和基于图像的观察的代理，保存经验缓冲区所需的内存较大。在这些情况下，必须确保有足够的内存可供保存的代理使用。

验证培训政策

要验证经过培训的代理，可以使用sim卡功能。要配置模拟，请使用模拟选项．

验证代理时，请考虑检查代理如何处理以下内容：

改变模拟初始条件-改变模型初始条件，修改环境的重置函数。例如reset函数，请参见使用自定义函数创建MATLAB环境，从模板创建自定义MATLAB环境，及创建Simul万博1manbetxink强化学习环境．
训练和仿真环境动力学之间的不匹配-要检查此类不匹配，请以创建训练环境的相同方式创建测试环境，修改环境行为。

与并行训练一样，如果您有parallel Computing Toolbox™软件，则可以在多核计算机上运行多个并行模拟。如果你有MATLAB并行服务器™软件，您可以在计算机群集或云资源上运行多个并行模拟。有关将模拟配置为使用并行计算的更多信息，请参阅UseParallel和ParallelizationOptions在模拟选项．