演员,评论家代理

您可以使用演员评论家(AC)剂,它采用了无模型,在线,对政策强化学习方法,实现演员评论家算法,如A2C和A3C。这种试剂的目标是直接优化政策(演员)并培养了评论家估计退货或将来的回报。[1]

对于学习代理不同类型的增强的详细信息,请参阅强化学习代理

交流智能体可以在有以下观察和行动空间的环境中进行训练。

观测空间 操作空间
离散或连续 离散或连续

在培训过程中,一个AC剂:

  • 对动作空间中每个动作的概率进行估计,根据概率分布随机选择动作。

  • 交互与使用当前的政策更新演员和评论家属性之前,多个步骤的环境。

演员和评论家功能

为了估计政策和价值功能,AC剂维持两个函数逼近:

  • 演员μ小号) - 演员需要观察小号并输出的,当采取每个动作在动作空间中的状态的概率小号

  • 评论家V小号) - 批评家需要观察小号并输出该折扣长期奖励的相应期望。

当训练结束后,训练的最佳策略存储在演员μ小号)。

有关创建函数逼近的演员和评论家的更多信息,请参阅创建策略和价值功能交涉

创建代理

创建一个AC代理:

  1. 使用。创建一个演员rlStochasticActorRepresentation对象。

  2. 创建使用评论家rlValueRepresentation对象。

  3. 使用指定的代理选项rlACAgentOptions对象。

  4. 创建使用代理rlACAgent对象。

训练算法

AC代理使用以下的训练算法。若要配置训练算法,请使用rlACAgentOptions对象。

  1. 初始化的演员μ小号)与随机参数值θμ

  2. 初始化评论家V小号)与随机参数值θV

  3. 生成ñ按照目前的政策经验。情节经验的顺序是:

    小号 Ť 小号 一个 Ť 小号 [R Ť 小号 + 1 小号 Ť 小号 + 1 ... 小号 Ť 小号 + ñ - 1 一个 Ť 小号 + ñ - 1 [R Ť 小号 + ñ 小号 Ť 小号 + ñ

    这里,小号Ť是一个状态的观察,一个Ť从该状态采取的动作,小号t + 1中是下一个状态,和[Rt + 1中搬家的奖励收到了吗小号Ť小号t + 1中

    在国家小号Ť,代理计算在操作空间中使用的每个操作的概率μ小号Ť)和随机选择行动一个Ť根据概率分布。

    TS是当前组的开始时间步骤ñ经验。在训练情节初,TS= 1。对于每个随后的组ñ在相同的训练集的经验,TS=TS+ñ

    对于每个训练集不包含终端状态,ñ等于NumStepsToLookAhead期权价值。除此以外,ñ小于NumStepsToLookAhead小号ñ是终端状态。

  4. 每集一步Ť=TS+ 1,TS+2,...,TS+ñ,计算返回GŤ,这是奖励该步骤和折扣未来奖励的总和。如果小号TS + N不是终端状态时,折现未来奖励包括贴现状态值的功能,利用网络评论家计算V

    G Ť = Σ ķ = Ť Ť 小号 + ñ γ ķ - Ť [R ķ + b γ ñ - Ť + 1 V 小号 Ť 小号 + ñ | θ V

    这里,b0如果小号TS + N是终端状态和1除此以外。

    要指定贴现因子γ, 使用DiscountFactor选择。

  5. 计算的优势功能dŤ

    d Ť = G Ť - V 小号 Ť | θ V

  6. 按照政策梯度最大化期望折扣奖励积累了优酷网的梯度。

    d θ μ = Σ Ť = 1 ñ θ μ ln μ 小号 Ť | θ μ * d Ť

  7. 通过最小化估计值函数之间的均方误差损失来累积批评家网络的梯度VŤ)和所计算的目标返回GŤ在所有ñ经验。如果EntropyLossWeight选项大于0,则累积额外的梯度,使熵损失函数最小。

    d θ V = Σ Ť = 1 ñ θ V G Ť - V 小号 Ť | θ V 2

  8. 通过应用梯度更新演员参数。

    θ μ = θ μ + α d θ μ

    这里,α是演员的学习速度。指定当您通过设置创建的演员表示学习率LearnRate选项rlRepresentationOptions对象。

  9. 通过应用梯度更新评论家参数。

    θ V = θ V + β d θ V

    这里,β是批评者的学习速度。通过设置。来指定创建批评家表示时的学习率LearnRate选项rlRepresentationOptions对象。

  10. 每次训练重复步骤3到9,直到训练结束。

为简单起见,在此算法的演员和评论家更新显示使用基本随机梯度下降的梯度更新。实际坡度更新方法取决于优化器使用指定的rlRepresentationOptions

参考文献

[1] Mnih, V,等。“深度强化学习的异步方法”,国际会议上的机器学习,2016年。

也可以看看

|

相关的话题