主要内容

在强化学习设计器中指定培训选项

要在中配置代理的培训,请执行以下操作:强化学习设计师应用程序,在上指定培训选项火车标签。

在Train选项卡上指定培训选项。

指定基本的选项

火车选项卡,您可以指定以下基本训练选项。

选项 描述
最大集数 训练代理的最大集数,指定为正整数。
马克斯集长度 每集运行的最大步骤数,指定为正整数。
停止标准

训练终止条件,指定为下列值之一。

  • AverageSteps-当每集跑步的平均步数等于或超过指定的临界值时停止训练停止值

  • 平均向-当跑步平均奖励等于或超过临界值时停止训练。

  • 情节报酬-当当前情节中的奖励等于或超过临界值时停止训练。

  • GlobalStepCount—当所有剧集的总步数(调用代理的总次数)等于或超过临界值时停止训练。

  • 幕式计数—当训练集数达到或超过临界值时,停止训练。

停止值 中训练终止条件的临界值停止标准,指定为标量。
平均窗长度 平均分数、奖励和代理的步数的窗口长度停止标准保存代理条件指定平均条件。

指定附加选项

要指定其他培训选项,请在火车选项卡上,单击更多的选择

在“更多培训选项”对话框中,您可以指定以下选项。

选项 描述
保存代理条件

培训期间保存代理的条件,指定为以下值之一。

  • 没有一个-不要在训练中拯救任何特工。

  • AverageSteps-当每集的运行平均步数等于或超过指定的临界值时,保存代理保存剂价值

  • 平均向-当运行的平均奖励等于或超过临界值时保存代理。

  • 情节报酬-当当前情节中的奖励等于或超过临界值时,保存代理。

  • GlobalStepCount-当所有事件中的步骤总数(调用代理的总次数)等于或超过临界值时,保存代理。

  • 幕式计数—当训练集数等于或超过临界值时,保存agent。

保存剂价值 中保存代理条件的临界值保存代理条件,指定为标量或“没有”
保存目录

已保存代理的文件夹。如果指定了名称,但文件夹不存在,则应用程序将在当前工作目录中创建该文件夹。

要以交互方式选择文件夹,请单击浏览

显示详细的输出 选择此选项可在命令行显示训练进度。
停在错误 选择此选项可在一集中发生错误时停止训练。
培训策划

选项以图形方式显示应用程序中的训练进度,指定为下列值之一。“训练进步”“没有”

  • 培训进度-显示培训进度

  • 没有一个-不显示培训进度

指定并行训练选项

要使用并行计算培训代理,请在火车选项卡上,单击并行计算图标。.使用并行计算的培训代理需要使用并行计算工具箱™软件。有关更多信息,请参见使用并行计算和GPU训练代理

要指定并行训练的选项,请选择使用并行>并行培训选项

“并行训练选项”对话框。

在“并行训练选项”对话框中,可以指定以下训练选项。

选项 描述
并行计算模式

并行计算模式,指定为下列值之一。

  • 同步-使用parpool对可用的工作人员进行同步培训。并行池客户端(启动培训的过程)根据来自所有工作人员的结果更新其参与者和批评者的参数,并将更新后的参数发送给所有工作人员。在这种情况下,工人必须暂停执行,直到所有工人都完成,因此,培训只能以最慢的工人允许的最快速度进行。

  • 异步的-使用parpool对可用的工作人员进行异步培训。在这种情况下,工作人员一旦完成并从客户端接收到更新的参数,就将数据发送回客户端。然后工人们继续他们的工作。

来自工人的数据类型

工作人员发送到并行池客户端的数据类型,指定为以下值之一。

  • 经历-模拟由工作人员执行,学习由客户机执行(开始培训的过程)。具体而言,工作人员根据环境模拟代理,并发送经验数据(观察、行动、奖励、下一次观察,以及指示是否达到终端条件的标志)对于具有梯度的代理,客户端根据经验计算梯度,更新网络参数,并将更新后的参数发送回工作人员,以便他们可以针对环境执行新的模拟。

  • 梯度-模拟和学习都由工作人员执行。具体来说,工作人员根据环境模拟agent,根据经验计算梯度,并将梯度发送给主机。主机对梯度进行平均,更新网络参数,并将更新后的参数发送回工作人员,以便他们可以执行n对抗环境的电子战模拟。

请注意

对于DQN、DDPG、PPO、SAC和TD3,必须将此选项设置为经历.对于AC和PG代理,此选项必须设置为梯度

步骤,直到数据发送

工作人员向客户端发送数据并接收更新参数的步骤数,指定为1或者一个正整数。当这个选项是1,工作进程将等待到事件结束,然后将所有步骤数据发送到客户端。否则,工作进程将在发送数据之前等待指定数量的步骤。

将工作空间变量传递给工作人员

选择此选项将模型和工作区变量发送给并行工作人员。当您选择此选项时,并行池客户端(开始训练的过程)将发送模型中使用的变量和MATLAB中定义的变量®向工人提供工作空间。

工人的随机种子

工作程序的随机发生器初始化,指定为以下值之一。

  • 1-为每个工作者分配一个唯一的随机种子。种子的值是工作者ID。

  • 2不要随机分配种子给工人。

  • Vector-手动为每个辅助进程指定随机种子。向量中的元素数必须与辅助进程数匹配。

要附加到并行池的文件 附加到并行池的其他文件。指定当前工作目录中的文件名称,每行使用一个名称。
工人设置功能 在训练开始前运行的函数,指定为没有输入参数的函数的句柄。该函数在培训开始前对每个工人运行一次。编写这个函数来执行训练之前需要的任何处理。
辅助清理功能 在训练结束后运行的函数,指定为没有输入参数的函数的句柄。您可以编写此函数来清理工作空间或在培训结束后执行其他处理。

下图显示了包含以下文件和函数的并行培训配置示例。

  • 附加到并行池的数据文件workerData.mat

  • 工人设置功能-我的设置

  • 辅助清理功能-myCleanup.m

平行训练选项对话框显示文件和功能信息。

另请参阅

相关的话题