代理

使用SARSA、DQN、DDPG、A2C等常用算法创建并配置强化学习代理

一个强化学习主体接收来自环境的观察和奖励。代理使用它的策略，根据观察结果和奖励选择一个动作，并将动作发送给环境。在训练过程中，agent根据动作、观察和奖励不断更新策略参数。这样做可以让agent学习给定环境和奖励信号的最优策略。

Reinforcement Learning Toolbox™软件提供了使用几种常见算法的强化学习代理，如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关更多信息，请参见强化学习代理．

有关定义策略表示的更多信息，请参见创建策略和值函数表示．

功能

代理

`rlQAgent`	创建Q-learning强化学习代理
`rlSARSAAgent`	创建SARSA强化学习代理
`rlDQNAgent`	创建深度q -网络强化学习agent
`rlDDPGAgent`	创建深度确定性策略梯度强化学习agent
`rlPGAgent`	创建策略梯度强化学习代理
`rlACAgent`	创建演员-评论家强化学习代理
`rlPPOAgent`	创建近端策略优化强化学习代理

剂的选择

`rlQAgentOptions`	创建q学习代理选项
`rlSARSAAgentOptions`	为SARSA代理创建选项
`rlDQNAgentOptions`	为DQN代理创建选项
`rlDDPGAgentOptions`	创建DDPG代理选项
`rlPGAgentOptions`	为PG代理创建选项
`rlACAgentOptions`	创建AC代理选项
`rlPPOAgentOptions`	为PPO代理创建选项

获取和设置表示

`getActor`	从强化学习agent中得到行动者表示
`getCritic`	从强化学习代理中获得批评代表
`setActor`	设置强化学习agent的行动者表示
`setCritic`	设置强化学习agent的批评家表示

主题

强化学习代理

您可以使用几种标准强化学习算法之一创建代理，或定义自己的自定义代理。

q学习的代理

创建q学习代理，用于强化学习。

撒尔沙代理

创建SARSA代理以加强学习。

深Q-Network代理

创建DQN代理，用于强化学习。

深度确定性政策梯度代理

创建DDPG代理，用于强化学习。

政策梯度代理

创建PG代理以加强学习。

Actor-Critic代理

创建AC代理以加强学习。

近端政策优化代理

创建PPO代理以加强学习。

自定义代理

创建使用自定义强化学习算法的代理。

强化学习工具箱文档

万博1manbetx

试试MATLAB、Sim万博1manbetxulink和其他产品s manbetx 845

得到审判现在