强化学习主体的确定性行为体表示
该对象实现了用作加强学习代理中的确定性actor的函数近似器。连续的行动的空间。确定性参与者将观察结果作为输入,将返回结果作为输出,从而实现预期累积长期回报的最大化,从而实现确定性策略。在创建RLDETerminyActorRepresentation
对象,使用它创建合适的代理,例如rlddpgagent.
代理。有关创建表示的更多信息,请参见创建策略和值函数表示.
使用深神经网络创建一个确定性演员演员
= RLDETerministicActorRepresentation(网
,观察税收
,ActionInfo.
,'观察',obsname.
“行动”,actName
)网
作为估计值。该语法设置ObservationInfo和ActionInfo的属性演员
对投入观察税收
和ActionInfo.
,包含分别观察和行动的规范。ActionInfo.
必须指定连续动作空间,不支持离散操作空间。万博1manbetxobsname.
必须包含输入层的名称网
与观察规范相关的。动作名称actName
的输出层的名称必须是网
与操作规范相关联的。
使用自定义基础函数作为底层近似器创建确定性参与者。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄演员
= RLDETerminyActorRepresentation({basisFcn
,W0.
},观察税收
,ActionInfo.
)basisFcn
到自定义基础函数,第二个元素包含初始权重矩阵W0.
.该语法设置ObservationInfo和ActionInfo的属性演员
分别对应于输入观察税收
和ActionInfo.
.
使用其他选项集创建确定性actor演员
= RLDETerministicActorRepresentation(___,选项
)选项
,这是一个rlRepresentationOptions
对象。该语法设置选项的属性演员
到选项
输入参数。您可以使用任何以前的Infux-Argument组合使用此语法。
rlddpgagent. |
深度确定性政策梯度加固学习代理 |
rltd3agent. |
双延迟深度确定性策略梯度强化学习主体 |
getAction |
根据环境观察,从行为者或行动者的表现中获得行动 |