为了创建替代学习的函数近似器,您可以使用深度学习工具箱™网络导入功能导入预先预训的深神经网络或深神经网络层体系结构。您可以导入:
打开神经网络交换机(ONNX™)型号,需要深入学习工具箱转换器,用于ONNX模型格式支持包软件。万博1manbetx了解更多信息,importONNXLayers
。
Tensorflow™-Keras网络,需要张量流模型的深度学习工具箱转换器万博1manbetx支持包软件。有关更多信息,请参阅importKerasLayers
。
Caffe卷积网络,这需要Caffe模型的深层学习工具箱进口商万博1manbetx支持包软件。有关更多信息,请参阅ImportCaffelayers.
。
导入深度神经网络后,您可以使用表示对象创建策略或value函数表示对象,例如rlvalueerepresentation
。
当您导入深度神经网络架构时,请考虑以下事项。
导入的体系结构必须具有单个输入层和单个输出层。因此,不支持使用观察和动作输入层导入整个批评网络。万博1manbetx
导入的网络架构输入和输出层的尺寸必须与环境的相应动作,观察或奖励尺寸的尺寸匹配。
导入网络结构后,需要设置输入层和输出层的名称,使其与相应的动作规范和观测规范的名称相匹配。
有关强化学习支持的深度神经网络架构的更多信息,请参见万博1manbetx创建策略和值函数表示。
例如,假设您有一个具有50 × 50灰度图像观测信号和连续动作空间的环境。为了训练策略梯度代理,您需要以下函数近似器,两者都必须有单个50 × 50的图像输入观察层和单个标量输出值。
演员- 根据当前观察选择动作值
评论家- 估计基于当前观察的预期长期奖励
另外,假设您有以下要导入的网络架构:
具有50×50图像输入层和标量输出层的演员的深度神经网络架构,其以ONNX格式保存(批评网络
)。
具有50×50图像输入层和标量输出层的评论家的深度神经网络架构,其以ONNX格式保存(ActorNetWork.NONX.
)。
要导入评论家和演员网络,请使用importONNXLayers
不指定输出层的功能。
批评网络= importonnxlayers('批判性是onl');ActorNetWork = ImportOnnXLayers('actornetwork.onnx');
这些命令生成警告,指出网络是在添加输出层的标准之前进行培训。当您使用导入的网络创建演员或批评者表示时,强化学习工具箱™软件会自动为您添加输出层。
导入网络后,创建Actor和批评功能近似函数表示。为此,首先从环境中获取观察和行动规范。
obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);
创建批读表示,指定批评网络的输入层的名称作为观察名称。由于批评网络具有单个观察输入和单个动作输出,因此使用值函数表示。
评论家= rlvalueerepresentation(批判性,Obsinfo,......'观察', {criticNetwork.Layers (1) . name});
创建演员表示,将演员网络的输入层的名称指定为Actor网络的观察名称和作为观察名称的输出层。由于Actor网络具有单个标量输出,因此使用确定性演员表示。
Actor = RLDETerminyActorRepresentation(Actornetwork,Obsinfo,Actinfo,......'观察', {actorNetwork.Layers (1) . name},......“行动”{actorNetwork.Layers(结束). name});
那么你可以:
使用这些表示创建代理。有关更多信息,请参阅强化学习代理。
使用。设置现有代理中的参与者和批评者表示setActor.
和setcritic.
, 分别。