主要内容

setlearnableparameters.

设置策略或value函数表示的学习参数值

描述

例子

newRep= setLearnableParameters (oldrep.返回新的策略或value函数表示,newRep,其结构与原始表示法相同,oldrep.,以及指定的学习参数值

例子

全部收缩

假设您拥有现有的培训钢筋学习代理。对于此示例,从培训的代理商加载火车DDPG代理控制双积分系统

加载(“DoubleIntegDDPG.mat”'代理人'

从代理人那里获得批评者。

评论家=克罗里特(代理人);

从评论家获取学习参数。

Params = GetLearnableParameters(评论家);

修改参数值。对于此示例,简单地将所有参数乘以2

ModifiedParams = Cellfun(@(x)x * 2,params,'统一输出'、假);

将批评的参数值设置为新的修改值。

评论家= setlearnableparameters(批评者,修改日明普);

将代理中的评论家设置为新修改的评论家。

代理= setcritic(代理商,批评者);

假设您拥有现有的培训钢筋学习代理。对于此示例,从培训的代理商加载火车DDPG代理控制双积分系统

加载(“DoubleIntegDDPG.mat”'代理人'

从代理获取参与者表示。

Actor = GetAttor(代理);

从行动者处获得可学习参数。

Params = GetLearnableParameters(演员);

修改参数值。对于此示例,简单地将所有参数乘以2

ModifiedParams = Cellfun(@(x)x * 2,params,'统一输出'、假);

将Actor的参数值设置为新的修改值。

Actor = SetLearnableParameters(演员,ModifiedParams);

将代理中的演员设置为新的修改演员。

代理= setActor(代理、演员);

输入参数

全部收缩

原始策略或value函数表示,指定为以下之一:

要创建策略或值函数表示,请使用以下方法之一:

  • 使用相应的表示对象创建表示。

  • 从代理商使用中获取现有的值函数表示透镜

  • 使用工作者

表示对象的可学习参数值,指定为单元数组。参数in.必须与结构和参数化兼容oldrep.

要从现有表示获取从现有表示的学习参数值的单元格数组,然后可以修改,使用GetLearnableParameters.功能。

输出参数

全部收缩

新策略或value函数表示,返回为与相同类型的表示对象oldrep.newRep具有相同的结构oldrep.但参数值来自

兼容性的考虑

展开全部

R2020a行为改变

在R2019A介绍