策略梯度代理-MATLAB和Simulink万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

策略梯度代理

策略梯度（PG）算法是一种无模型的在线策略强化学习方法。PG代理是一种基于策略的强化学习代理，它使用强化算法搜索使预期累积长期回报最大化的最优策略。

有关不同类型的强化学习代理的更多信息，请参阅强化学习代理.

PG代理可以在具有以下观察和行动空间的环境中进行培训。

观测空间	动作空间
离散的还是连续的	离散的还是连续的

PG代理使用以下演员和评论家表示。

批评家（如果使用基线）	演员
价值函数批评家五(S)，您可以使用`rlValueRepresentation`	随机政策参与者π（S），您可以使用`随机表示`

在培训期间，PG代理：

如果利用决定论剥削选择权rlPGAgentOptions设置为符合事实的具有最大可能性的动作通常用于模拟和生成策略函数。这将导致模拟代理和生成的策略的行为具有确定性。

PG代理使用参与者函数近似器表示策略μ(s)1.演员进行观察s并返回处于状态时在动作空间中执行每个动作的概率s.

为了减少梯度估计过程中的方差，PG代理可以使用基线值函数，该函数使用临界函数近似器进行估计，v(s)。批评家计算给定观察状态的值函数。

有关为函数近似创建参与者和批评者的更多信息，请参见创建策略和值函数表示.

您可以根据环境中的观察和操作规范，使用默认的参与者和评论家表示创建PG代理。为此，请执行以下步骤。

或者，您可以创建演员和评论家表示，并使用这些表示来创建代理。在这种情况下，请确保参与者和批评家表示的输入和输出维度与环境的相应操作和观察规范相匹配。

有关为函数近似创建参与者和批评者的更多信息，请参见创建策略和值函数表示.

PG代理使用带或不带基线的强化（蒙特卡罗策略梯度）算法。要配置训练算法，请使用rlPGAgentOptions对象

初始化参与者μ(s)具有随机参数值θ_μ.
对于每个培训集，按照参与者策略生成集体验μ(s)。要选择一个动作，参与者为动作空间中的每个动作生成概率，然后代理根据概率分布随机选择一个动作。代理将执行操作，直到达到终端状态s_T. 插曲体验由序列组成

$s_{0}, {A.}_{0}, R_{1.}, s_{1.}, \dots, s_{T - 1.}, {A.}_{T - 1.}, R_{T}, s_{T}$

在这里s_T是一种状态观察,，A._T是该州采取的行动，s_t+1是下一个州，和R_t+1搬家是否获得奖励s_T到s_t+1.
对于事件序列中的每个状态，即T= 1, 2, …,T-1、计算收益G_T，这是折扣后的未来奖励。

$G_{T} = \sum_{K = T}^{T} γ^{K - T} R_{K}$
通过遵循策略梯度来累积参与者网络的梯度，以最大化预期的折扣回报。如果无熵重量选项大于零，则累积附加梯度以最小化熵损失函数。

$D θ_{μ} = \sum_{T = 1.}^{T - 1.} G_{T} \nabla_{θ_{μ}} 自然对数 μ (s_{T} | θ_{μ})$
通过应用渐变来更新角色参数。

$θ_{μ} = θ_{μ} + α D θ_{μ}$

在这里α是演员的学习率。通过设置学习者中的选项rlRepresentationOptions对象为简单起见，此步骤显示了使用基本随机梯度下降的梯度更新。实际的渐变更新方法取决于使用指定的优化器rlRepresentationOptions.
对每个训练集重复步骤2至5，直到训练完成。

初始化参与者μ(s)具有随机参数值θ_μ.
初始化批评家v(s)具有随机参数值θ_Q.
对于每个培训集，按照参与者策略生成集体验μ(s).插曲体验由序列组成

$s_{0}, {A.}_{0}, R_{1.}, s_{1.}, \dots, s_{T - 1.}, {A.}_{T - 1.}, R_{T}, s_{T}$
对于T= 1, 2, …,T:
- 计算回报G_T，这是折扣后的未来奖励。
  
  $G_{T} = \sum_{K = T}^{T} γ^{K - T} R_{K}$
- 计算优势函数δ_T使用来自批评家的基线值函数估计。
  
  $δ_{T} = G_{T} - v (s_{T} | θ_{v})$
累积批评家网络的梯度。

$D θ_{v} = \sum_{T = 1.}^{T - 1.} δ_{T} \nabla_{θ_{v}} v (s_{T} | θ_{v})$
累积参与者网络的渐变。如果无熵重量选项大于零，则累积附加梯度以最小化熵损失函数。

$D θ_{μ} = \sum_{T = 1.}^{T - 1.} δ_{T} \nabla_{θ_{μ}} 自然对数 μ (s_{T} | θ_{μ})$
更新批评家参数θ_v.

$θ_{v} = θ_{v} + β D θ_{v}$

在这里β是评论家的学习速率。通过设置学习者中的选项rlRepresentationOptions对象
更新参与者参数θ_μ.

$θ_{μ} = θ_{μ} + α D θ_{μ}$
对每个训练集重复步骤3至8，直到训练完成。