导入策略和值函数表示 - Matlab＆Simulink万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

导入策略和价值功能表示

为了创建替代学习的函数近似器，您可以使用深度学习工具箱™网络导入功能导入预先预训的深神经网络或深神经网络层体系结构。您可以导入：

打开神经网络交换机（ONNX™）型号，需要深入学习工具箱转换器，用于ONNX模型格式支持包软件。万博1manbetx了解更多信息，importONNXLayers。
Tensorflow™-Keras网络，需要张量流模型的深度学习工具箱转换器万博1manbetx支持包软件。有关更多信息，请参阅importKerasLayers。
Caffe卷积网络，这需要Caffe模型的深层学习工具箱进口商万博1manbetx支持包软件。有关更多信息，请参阅ImportCaffelayers.。

导入深度神经网络后，您可以使用表示对象创建策略或value函数表示对象，例如rlvalueerepresentation。

当您导入深度神经网络架构时，请考虑以下事项。

导入的体系结构必须具有单个输入层和单个输出层。因此，不支持使用观察和动作输入层导入整个批评网络。万博1manbetx
导入的网络架构输入和输出层的尺寸必须与环境的相应动作，观察或奖励尺寸的尺寸匹配。
导入网络结构后，需要设置输入层和输出层的名称，使其与相应的动作规范和观测规范的名称相匹配。

有关强化学习支持的深度神经网络架构的更多信息，请参见万博1manbetx创建策略和值函数表示。

引进影像观察应用的演员和评论家

例如，假设您有一个具有50 × 50灰度图像观测信号和连续动作空间的环境。为了训练策略梯度代理，您需要以下函数近似器，两者都必须有单个50 × 50的图像输入观察层和单个标量输出值。

演员- 根据当前观察选择动作值
评论家- 估计基于当前观察的预期长期奖励

另外，假设您有以下要导入的网络架构:

具有50×50图像输入层和标量输出层的演员的深度神经网络架构，其以ONNX格式保存（批评网络）。
具有50×50图像输入层和标量输出层的评论家的深度神经网络架构，其以ONNX格式保存（ActorNetWork.NONX.）。

要导入评论家和演员网络，请使用importONNXLayers不指定输出层的功能。

批评网络= importonnxlayers（'批判性是onl'）;ActorNetWork = ImportOnnXLayers（'actornetwork.onnx'）;

这些命令生成警告，指出网络是在添加输出层的标准之前进行培训。当您使用导入的网络创建演员或批评者表示时，强化学习工具箱™软件会自动为您添加输出层。

导入网络后，创建Actor和批评功能近似函数表示。为此，首先从环境中获取观察和行动规范。

obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);

创建批读表示，指定批评网络的输入层的名称作为观察名称。由于批评网络具有单个观察输入和单个动作输出，因此使用值函数表示。

评论家= rlvalueerepresentation（批判性，Obsinfo，......'观察', {criticNetwork.Layers (1) . name});

创建演员表示，将演员网络的输入层的名称指定为Actor网络的观察名称和作为观察名称的输出层。由于Actor网络具有单个标量输出，因此使用确定性演员表示。

Actor = RLDETerminyActorRepresentation（Actornetwork，Obsinfo，Actinfo，......'观察', {actorNetwork.Layers (1) . name},......“行动”{actorNetwork.Layers(结束). name});

那么你可以：

使用这些表示创建代理。有关更多信息，请参阅强化学习代理。
使用。设置现有代理中的参与者和批评者表示setActor.和setcritic.，分别。

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx

下载电子书

导入策略和价值功能表示

引进影像观察应用的演员和评论家

相关的话题

强化学习工具箱文档

万博1manbetx

用Matlab和Simulink加强学习万博1manbetx