在强化学习设计器-MATLAB和Simulink中指定培训选项万博1manbetx

在强化学习设计器中指定培训选项

要在中配置代理的培训，请执行以下操作：强化学习设计师应用程序，在上指定培训选项火车标签。

在Train选项卡上指定培训选项。

指定基本的选项

在火车选项卡，您可以指定以下基本训练选项。

选项	描述
最大集数	训练代理的最大集数，指定为正整数。
马克斯集长度	每集运行的最大步骤数，指定为正整数。
停止标准	训练终止条件，指定为下列值之一。 `AverageSteps`-当每集跑步的平均步数等于或超过指定的临界值时停止训练停止值． `平均向`-当跑步平均奖励等于或超过临界值时停止训练。 `情节报酬`-当当前情节中的奖励等于或超过临界值时停止训练。 `GlobalStepCount`—当所有剧集的总步数(调用代理的总次数)等于或超过临界值时停止训练。 `幕式计数`—当训练集数达到或超过临界值时，停止训练。
停止值	中训练终止条件的临界值停止标准，指定为标量。
平均窗长度	平均分数、奖励和代理的步数的窗口长度停止标准或保存代理条件指定平均条件。

指定附加选项

要指定其他培训选项，请在火车选项卡上,单击更多的选择．

在“更多培训选项”对话框中，您可以指定以下选项。

选项	描述
保存代理条件	培训期间保存代理的条件，指定为以下值之一。 `没有一个`-不要在训练中拯救任何特工。 `AverageSteps`-当每集的运行平均步数等于或超过指定的临界值时，保存代理保存剂价值． `平均向`-当运行的平均奖励等于或超过临界值时保存代理。 `情节报酬`-当当前情节中的奖励等于或超过临界值时，保存代理。 `GlobalStepCount`-当所有事件中的步骤总数（调用代理的总次数）等于或超过临界值时，保存代理。 `幕式计数`—当训练集数等于或超过临界值时，保存agent。
保存剂价值	中保存代理条件的临界值保存代理条件，指定为标量或`“没有”`．
保存目录	已保存代理的文件夹。如果指定了名称，但文件夹不存在，则应用程序将在当前工作目录中创建该文件夹。要以交互方式选择文件夹，请单击浏览．
显示详细的输出	选择此选项可在命令行显示训练进度。
停在错误	选择此选项可在一集中发生错误时停止训练。
培训策划	选项以图形方式显示应用程序中的训练进度，指定为下列值之一。`“训练进步”`或`“没有”`． `培训进度`-显示培训进度 `没有一个`-不显示培训进度

指定并行训练选项

要使用并行计算培训代理，请在火车选项卡上,单击．使用并行计算的培训代理需要使用并行计算工具箱™软件。有关更多信息，请参见使用并行计算和GPU训练代理．

要指定并行训练的选项，请选择使用并行>并行培训选项．

“并行训练选项”对话框。

在“并行训练选项”对话框中，可以指定以下训练选项。

选项	描述
并行计算模式	并行计算模式，指定为下列值之一。 `同步`-使用`parpool`对可用的工作人员进行同步培训。并行池客户端(启动培训的过程)根据来自所有工作人员的结果更新其参与者和批评者的参数，并将更新后的参数发送给所有工作人员。在这种情况下，工人必须暂停执行，直到所有工人都完成，因此，培训只能以最慢的工人允许的最快速度进行。 `异步的`-使用`parpool`对可用的工作人员进行异步培训。在这种情况下，工作人员一旦完成并从客户端接收到更新的参数，就将数据发送回客户端。然后工人们继续他们的工作。
来自工人的数据类型	工作人员发送到并行池客户端的数据类型，指定为以下值之一。 `经历`-模拟由工作人员执行，学习由客户机执行（开始培训的过程）。具体而言，工作人员根据环境模拟代理，并发送经验数据（观察、行动、奖励、下一次观察，以及指示是否达到终端条件的标志）对于具有梯度的代理，客户端根据经验计算梯度，更新网络参数，并将更新后的参数发送回工作人员，以便他们可以针对环境执行新的模拟。 `梯度`-模拟和学习都由工作人员执行。具体来说，工作人员根据环境模拟agent，根据经验计算梯度，并将梯度发送给主机。主机对梯度进行平均，更新网络参数，并将更新后的参数发送回工作人员，以便他们可以执行n对抗环境的电子战模拟。请注意对于DQN、DDPG、PPO、SAC和TD3，必须将此选项设置为`经历`．对于AC和PG代理，此选项必须设置为`梯度`
步骤，直到数据发送	工作人员向客户端发送数据并接收更新参数的步骤数，指定为`1`或者一个正整数。当这个选项是`1`，工作进程将等待到事件结束，然后将所有步骤数据发送到客户端。否则，工作进程将在发送数据之前等待指定数量的步骤。
将工作空间变量传递给工作人员	选择此选项将模型和工作区变量发送给并行工作人员。当您选择此选项时，并行池客户端(开始训练的过程)将发送模型中使用的变量和MATLAB中定义的变量^®向工人提供工作空间。
工人的随机种子	工作程序的随机发生器初始化，指定为以下值之一。 `1`-为每个工作者分配一个唯一的随机种子。种子的值是工作者ID。 `2`不要随机分配种子给工人。 Vector-手动为每个辅助进程指定随机种子。向量中的元素数必须与辅助进程数匹配。
要附加到并行池的文件	附加到并行池的其他文件。指定当前工作目录中的文件名称，每行使用一个名称。
工人设置功能	在训练开始前运行的函数，指定为没有输入参数的函数的句柄。该函数在培训开始前对每个工人运行一次。编写这个函数来执行训练之前需要的任何处理。
辅助清理功能	在训练结束后运行的函数，指定为没有输入参数的函数的句柄。您可以编写此函数来清理工作空间或在培训结束后执行其他处理。