创造一个环境,一个连续的操作空间和获得其观察和操作规范。对于这个示例,负载在示例中使用的环境火车DDPG剂来控制双积分器系统。
负载预定义的环境。
env = DoubleIntegratorContinuousAction属性:增加:1 Ts: 0.1000 MaxDistance: 5 GoalThreshold: 0.0100问:[2 x2双]R: 0.0100 MaxForce:正状态:[2 x1双)
获得观察和操作规范。
创建PPO代理从环境中观察和操作规范。
在强化学习修改深层神经网络代理,您必须首先提取演员和评论家表示。
从演员和提取深层神经网络评论家表示。
网络是dlnetwork
对象。查看使用情节
功能,您必须将它们转换为layerGraph
对象。
例如,查看演员网络。
验证一个网络,使用analyzeNetwork
。例如,验证网络评论家。
analyzeNetwork (criticNet)
您可以修改演员和评论家网络和拯救他们回代理。修改网络,您可以使用深层网络设计师为每个网络应用。打开应用程序,使用下面的命令。
deepNetworkDesigner (layerGraph (criticNet) deepNetworkDesigner (layerGraph (actorNet))
在深层网络设计师,修改网络。例如,您可以添加额外的层网络。当你修改网络,不改变网络的输入和输出层返回的getModel
。建立网络的更多信息,见构建网络与深度网络设计师。
验证修改后的网络深层网络设计师,你必须点击分析了dlnetwork下,分析部分。出口MATLAB®工作区中修改后的网络结构,生成代码来创建新网络和从命令行运行这段代码。不使用导出选项深层网络设计师。为例,展示了如何生成并运行代码,看看使用深度网络设计师创建代理和培训使用图像的观察。
对于这个示例,创建的代码修改后的演员兼评论家网络createModifiedNetworks.m
。
每个网络包括一个额外的修改fullyConnectedLayer
和reluLayer
在他们的输出路径。查看修改后的演员网络。
出口网络后,网络插入演员和评论家表示。
最后,插入修改演员的演员兼批评家和评论家表示对象。