主要内容

getLearnableParameters

从策略或值函数表示中获得可学习的参数值

描述

例子

瓦尔= getLearnableParameters (代表)从强化学习策略或值函数表示中返回可学习参数的值代表

例子

全部折叠

假设您有一个现有的经过训练的强化学习代理。对于本例,从中加载经过训练的代理训练DDPG代理控制双集成商系统

负载(“DoubleIntegDDPG.mat”,“代理”)

从代理获取评论家表示。

评论家= getCritic(代理);

从批评家那里获得可学习参数。

params = getLearnableParameters(批评);

修改参数值。对于本例,只需将所有参数乘以2

modifiedParams = cellfun(@(x) x*2,params,“UniformOutput”,错误的);

将critical的参数值设置为修改后的新值。

评论家= setLearnableParameters(评论家,modifiedParams);

将代理商设置为新修改的评论家。

代理= setCritic(代理、批评);

假设您有一个现有的经过训练的强化学习代理。对于本例,从中加载经过训练的代理训练DDPG代理控制双集成商系统

负载(“DoubleIntegDDPG.mat”,“代理”)

从代理商中获取演员表示。

演员= getActor(代理);

从行动者处获得可学习参数。

params = getLearnableParameters(演员);

修改参数值。对于本例,只需将所有参数乘以2

modifiedParams = cellfun(@(x) x*2,params,“UniformOutput”,错误的);

将参与者的参数值设置为新的修改值。

演员= setLearnableParameters(演员,modifiedParams);

将代理中的参与者设置为新修改的参与者。

代理= setAttor(代理,演员);

输入参数

全部折叠

策略或值函数表示,指定为下列之一:

要创建策略或值函数表示,请使用以下方法之一:

  • 使用相应的表示对象创建表示。

  • 使用getCritic

  • 使用代理商使用的现有策略表示getActor

输出参数

全部折叠

表示对象的可学习参数值,作为单元格数组返回。可以修改这些参数值,并在原始代理或使用setLearnableParameters函数。

兼容性的考虑

全部展开

R2020a行为改变

介绍了R2019a