一个强化学习主体接收来自环境的观察和奖励。代理使用它的策略,根据观察结果和奖励选择一个动作,并将动作发送给环境。在训练过程中,agent根据动作、观察和奖励不断更新策略参数。这样做可以让agent学习给定环境和奖励信号的最优策略。
Reinforcement Learning Toolbox™软件提供了使用几种常见算法的强化学习代理,如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关更多信息,请参见强化学习代理.
有关定义策略表示的更多信息,请参见创建策略和值函数表示.
您可以使用几种标准强化学习算法之一创建代理,或定义自己的自定义代理。
创建q学习代理,用于强化学习。
创建SARSA代理以加强学习。
创建DQN代理,用于强化学习。
创建DDPG代理,用于强化学习。
创建PG代理以加强学习。
创建AC代理以加强学习。
创建PPO代理以加强学习。
创建使用自定义强化学习算法的代理。