以交互式创建和培训加固学习代理

Emmanouil Tzorakoleftherakis，Mathworks

使用强化学习设计器应用程序中的可视化交互式工作流设计、培训和模拟强化学习代理。使用应用程序在强化学习工具箱中设置强化学习问题™ 不写MATLAB^®代码。通过整个钢筋学习工作流程进行：

导入应用程序中的现有环境
为您的环境导入或创建新代理，并为代理选择适当的超参数
使用强化学习工具箱创建的默认神经网络体系结构或导入自定义体系结构
针对单个或多个工人对代理进行培训，并针对环境模拟经过培训的代理
分析仿真结果和优化代理参数•将最终代理导出到MATLAB工作区进行进一步使用和部署

从MATLAB的R2021a版本开始，强化学习工具箱允许您使用新的强化学习设计器应用程序以交互方式设计、训练和模拟RL代理。从命令行或MATLAB toolstrip打开应用程序。首先，您需要创建代理将针对其进行训练的环境对象。强化学习设计器允许您从MATLAB工作区导入环境对象，从多个预定义环境中进行选择，或创建自己的自定义环境。对于本例，让我们创建一个具有离散动作空间的预定义推车杆MATLAB环境，我们还将从MATLAB工作空间导入一个具有连续动作空间的四条腿机器人的自定义Simulink环境。您可以根据需要从“环境”窗格中删除或重命名环境对象，也可以在预览窗格中查看观察和操作空间的尺寸。要创建代理，请在“强化学习”选项卡上的“代理”部分中单击“新建”。根据所选环境以及观察和行动空间的性质，应用程序将显示兼容的内置训练算法列表。对于这个演示，我们将选择DQN算法。该应用程序将生成一个具有默认批评家体系结构的DQN代理。在创建代理之前，可以根据需要调整批评家的一些默认值。新代理将出现在“代理”窗格中，代理编辑器将显示代理的摘要视图和可调整的可用超参数。例如，让我们更改代理的采样时间和评论家的学习率。在这里，我们还可以调整代理的探索策略，并查看探索将如何根据培训步骤的数量进行。要查看批评家默认网络，请单击DQN代理选项卡上的查看批评家模型。深度学习网络分析器打开并显示评论结构。可以通过从工作区导入不同的批评家网络来更改批评家神经网络。您还可以同时导入一万博1manbetx组不同的代理选项或不同的批评家表示对象。单击“训练”以指定训练选项，例如代理的停止条件。在这里，让我们将最大剧集数设置为1000，其余的保留默认值。要并行化培训，请单击“使用并行”按钮。并行化选项包括其他设置，例如工作人员将发送回的数据类型、是否同步发送数据等。设置培训选项后，您可以生成具有指定设置的MATLAB脚本，如果需要，您可以在应用程序外部使用该脚本。要开始培训，请单击“培训”。在培训过程中，应用程序将打开“培训课程”选项卡并显示培训进度。如果环境可视化可用，还可以查看环境在培训期间的反应。您可以随时停止培训，并选择接受或放弃培训结果。接受的结果将显示在“结果”窗格下，新的经过培训的代理也将显示在“代理”下。要模拟代理，请转到“模拟”选项卡，并从下拉列表中选择适当的代理和环境对象。对于此任务，让我们为我们在开始时导入的4条腿机器人环境导入一个经过预训练的代理。双击代理对象以打开代理编辑器。您可以看到，这是一个DDPG代理，它接收44个连续观测并输出8个连续扭矩。在“模拟”选项卡中，选择所需的模拟数量和模拟长度。如果需要运行大量模拟，可以并行运行它们。单击“模拟”后，应用程序将打开“模拟会话”选项卡。如果可用，您也可以在此阶段查看环境的可视化。模拟完成后，您将能够看到每个模拟的奖励以及奖励平均值和标准偏差。记住，奖励信号是作为环境的一部分提供的。要分析模拟结果，请单击“检查模拟数据”。在“模拟数据检查器”中，可以查看每个模拟事件的已保存信号。如果要保留模拟结果，请单击“接受”。完成工作后，可以选择导出“代理”窗格下显示的任何代理。为方便起见，还可以直接导出底层的参与者或批评家表示、参与者或批评家神经网络以及代理选项。要保存应用程序会话以备将来使用，请单击“强化学习”选项卡上的“保存会话”。有关更多信息，请参阅强化学习工具箱的文档。