主要内容

导入策略和价值功能表示

为了创建替代学习的函数近似器,您可以使用深度学习工具箱™网络导入功能导入预先预训的深神经网络或深神经网络层体系结构。您可以导入:

  • 打开神经网络交换机(ONNX™)型号,需要深入学习工具箱转换器,用于ONNX模型格式支持包软件。万博1manbetx了解更多信息,importONNXLayers

  • Tensorflow™-Keras网络,需要张量流模型的深度学习工具箱转换器万博1manbetx支持包软件。有关更多信息,请参阅importKerasLayers

  • Caffe卷积网络,这需要Caffe模型的深层学习工具箱进口商万博1manbetx支持包软件。有关更多信息,请参阅ImportCaffelayers.

导入深度神经网络后,您可以使用表示对象创建策略或value函数表示对象,例如rlvalueerepresentation

当您导入深度神经网络架构时,请考虑以下事项。

  • 导入的体系结构必须具有单个输入层和单个输出层。因此,不支持使用观察和动作输入层导入整个批评网络。万博1manbetx

  • 导入的网络架构输入和输出层的尺寸必须与环境的相应动作,观察或奖励尺寸的尺寸匹配。

  • 导入网络结构后,需要设置输入层和输出层的名称,使其与相应的动作规范和观测规范的名称相匹配。

有关强化学习支持的深度神经网络架构的更多信息,请参见万博1manbetx创建策略和值函数表示

引进影像观察应用的演员和评论家

例如,假设您有一个具有50 × 50灰度图像观测信号和连续动作空间的环境。为了训练策略梯度代理,您需要以下函数近似器,两者都必须有单个50 × 50的图像输入观察层和单个标量输出值。

  • 演员- 根据当前观察选择动作值

  • 评论家- 估计基于当前观察的预期长期奖励

另外,假设您有以下要导入的网络架构:

  • 具有50×50图像输入层和标量输出层的演员的深度神经网络架构,其以ONNX格式保存(批评网络)。

  • 具有50×50图像输入层和标量输出层的评论家的深度神经网络架构,其以ONNX格式保存(ActorNetWork.NONX.)。

要导入评论家和演员网络,请使用importONNXLayers不指定输出层的功能。

批评网络= importonnxlayers('批判性是onl');ActorNetWork = ImportOnnXLayers('actornetwork.onnx');

这些命令生成警告,指出网络是在添加输出层的标准之前进行培训。当您使用导入的网络创建演员或批评者表示时,强化学习工具箱™软件会自动为您添加输出层。

导入网络后,创建Actor和批评功能近似函数表示。为此,首先从环境中获取观察和行动规范。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建批读表示,指定批评网络的输入层的名称作为观察名称。由于批评网络具有单个观察输入和单个动作输出,因此使用值函数表示。

评论家= rlvalueerepresentation(批判性,Obsinfo,......'观察', {criticNetwork.Layers (1) . name});

创建演员表示,将演员网络的输入层的名称指定为Actor网络的观察名称和作为观察名称的输出层。由于Actor网络具有单个标量输出,因此使用确定性演员表示。

Actor = RLDETerminyActorRepresentation(Actornetwork,Obsinfo,Actinfo,......'观察', {actorNetwork.Layers (1) . name},......“行动”{actorNetwork.Layers(结束). name});

那么你可以:

相关的话题