要在中配置代理的培训,请执行以下操作:强化学习设计师应用程序,在上指定培训选项火车标签。
在火车选项卡,您可以指定以下基本训练选项。
选项 | 描述 |
---|---|
最大集数 | 训练代理的最大集数,指定为正整数。 |
马克斯集长度 | 每集运行的最大步骤数,指定为正整数。 |
停止标准 | 训练终止条件,指定为下列值之一。
|
停止值 | 中训练终止条件的临界值停止标准,指定为标量。 |
平均窗长度 | 平均分数、奖励和代理的步数的窗口长度停止标准或保存代理条件指定平均条件。 |
要指定其他培训选项,请在火车选项卡上,单击更多的选择.
在“更多培训选项”对话框中,您可以指定以下选项。
选项 | 描述 |
---|---|
保存代理条件 | 培训期间保存代理的条件,指定为以下值之一。
|
保存剂价值 | 中保存代理条件的临界值保存代理条件,指定为标量或“没有” . |
保存目录 | 已保存代理的文件夹。如果指定了名称,但文件夹不存在,则应用程序将在当前工作目录中创建该文件夹。 要以交互方式选择文件夹,请单击浏览. |
显示详细的输出 | 选择此选项可在命令行显示训练进度。 |
停在错误 | 选择此选项可在一集中发生错误时停止训练。 |
培训策划 | 选项以图形方式显示应用程序中的训练进度,指定为下列值之一。
|
要使用并行计算培训代理,请在火车选项卡上,单击.使用并行计算的培训代理需要使用并行计算工具箱™软件。有关更多信息,请参见使用并行计算和GPU训练代理.
要指定并行训练的选项,请选择使用并行>并行培训选项.
在“并行训练选项”对话框中,可以指定以下训练选项。
选项 | 描述 |
---|---|
并行计算模式 | 并行计算模式,指定为下列值之一。
|
来自工人的数据类型 | 工作人员发送到并行池客户端的数据类型,指定为以下值之一。
请注意 对于DQN、DDPG、PPO、SAC和TD3,必须将此选项设置为 |
步骤,直到数据发送 | 工作人员向客户端发送数据并接收更新参数的步骤数,指定为 |
将工作空间变量传递给工作人员 | 选择此选项将模型和工作区变量发送给并行工作人员。当您选择此选项时,并行池客户端(开始训练的过程)将发送模型中使用的变量和MATLAB中定义的变量®向工人提供工作空间。 |
工人的随机种子 | 工作程序的随机发生器初始化,指定为以下值之一。
|
要附加到并行池的文件 | 附加到并行池的其他文件。指定当前工作目录中的文件名称,每行使用一个名称。 |
工人设置功能 | 在训练开始前运行的函数,指定为没有输入参数的函数的句柄。该函数在培训开始前对每个工人运行一次。编写这个函数来执行训练之前需要的任何处理。 |
辅助清理功能 | 在训练结束后运行的函数,指定为没有输入参数的函数的句柄。您可以编写此函数来清理工作空间或在培训结束后执行其他处理。 |
下图显示了包含以下文件和函数的并行培训配置示例。
附加到并行池的数据文件workerData.mat
工人设置功能-我的设置
辅助清理功能-myCleanup.m