代理

使用SARSA、DQN、DDPG、A2C等常用算法创建并配置强化学习代理

一个强化学习主体接收来自环境的观察和奖励。代理使用它的策略,根据观察结果和奖励选择一个动作,并将动作发送给环境。在训练过程中,agent根据动作、观察和奖励不断更新策略参数。这样做可以让agent学习给定环境和奖励信号的最优策略。

Reinforcement Learning Toolbox™软件提供了使用几种常见算法的强化学习代理,如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关更多信息,请参见强化学习代理

有关定义策略表示的更多信息,请参见创建策略和值函数表示

功能

全部展开

rlQAgent 创建Q-learning强化学习代理
rlSARSAAgent 创建SARSA强化学习代理
rlDQNAgent 创建深度q -网络强化学习agent
rlDDPGAgent 创建深度确定性策略梯度强化学习agent
rlPGAgent 创建策略梯度强化学习代理
rlACAgent 创建演员-评论家强化学习代理
rlPPOAgent 创建近端策略优化强化学习代理
rlQAgentOptions 创建q学习代理选项
rlSARSAAgentOptions 为SARSA代理创建选项
rlDQNAgentOptions 为DQN代理创建选项
rlDDPGAgentOptions 创建DDPG代理选项
rlPGAgentOptions 为PG代理创建选项
rlACAgentOptions 创建AC代理选项
rlPPOAgentOptions 为PPO代理创建选项
getActor 从强化学习agent中得到行动者表示
getCritic 从强化学习代理中获得批评代表
setActor 设置强化学习agent的行动者表示
setCritic 设置强化学习agent的批评家表示

主题

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,或定义自己的自定义代理。

q学习的代理

创建q学习代理,用于强化学习。

撒尔沙代理

创建SARSA代理以加强学习。

深Q-Network代理

创建DQN代理,用于强化学习。

深度确定性政策梯度代理

创建DDPG代理,用于强化学习。

政策梯度代理

创建PG代理以加强学习。

Actor-Critic代理

创建AC代理以加强学习。

近端政策优化代理

创建PPO代理以加强学习。

自定义代理

创建使用自定义强化学习算法的代理。