rlStochasticActorRepresentation
(不推荐)用于强化学习代理的随机参与者表示
rlStochasticActorRepresentation
不建议使用。使用rlDiscreteCategoricalActor
或rlContinuousGaussianActor
代替。有关更多信息,请参见rlStochasticActorRepresentation不建议使用.
描述
创建
语法
描述
离散作用空间随机Actor
使用深度神经网络创建一个具有离散动作空间的随机角色discActor
= rlStochasticActorRepresentation (网
,observationInfo
,discActionInfo
“观察”,obsName
)网
作为函数逼近器。这里,输出层网
必须具有与可能的离散操作数量一样多的元素。此语法设置ObservationInfo而且ActionInfo的属性discActor
对于输入observationInfo
而且discActionInfo
,分别。obsName
必须包含的输入层的名称网
.
使用自定义基函数作为基础逼近器创建一个离散空间随机actor。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄discActor
= rlStochasticActorRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)basisFcn
到自定义基函数,而第二个元素包含初始权值矩阵W0
.此语法设置ObservationInfo而且ActionInfo的属性discActor
对于输入observationInfo
而且actionInfo
,分别。
创建离散行动空间,随机行动者discActor
= rlStochasticActorRepresentation (___,选项
)discActor
使用附加选项集选项
,这是一个rlRepresentationOptions
对象。此语法设置选项的属性discActor
到选项
输入参数。您可以将此语法用于前面的任何输入-参数组合。
连续动作空间高斯Actor
使用深度神经网络创建具有连续动作空间的高斯随机actor接触器
= rlStochasticActorRepresentation (网
,observationInfo
,contActionInfo
“观察”,obsName
)网
作为函数逼近器。这里,输出层网
必须具有连续动作空间维数的两倍多的元素。此语法设置ObservationInfo而且ActionInfo的属性接触器
对于输入observationInfo
而且contActionInfo
分别。obsName
必须包含的输入层的名称网
.
请注意
接触器
不强制操作规范设置的约束,因此,在使用此actor时,必须在环境中强制操作空间约束。
创建连续动作空间,高斯actor接触器
= rlStochasticActorRepresentation (___,选项
)接触器
使用额外的选项
选项集,它是一个rlRepresentationOptions
对象。此语法设置选项的属性接触器
到选项
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlACAgent |
演员-评论家强化学习代理 |
rlPGAgent |
策略梯度强化学习代理 |
rlPPOAgent |
近端策略优化强化学习代理 |
rlSACAgent |
软演员-评论家强化学习代理 |
getAction |
从给定环境观察的代理、参与者或策略对象获取操作 |