强化学习代理接收来自环境的观察和奖励。使用它的策略,智能体根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,智能体根据动作、观察和奖励不断更新策略参数。这样做可以让智能体学习给定环境和奖励信号的最优策略。
强化学习工具箱™软件提供了使用几种常见算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。
有关更多信息,请参见强化学习代理.有关定义策略表示的详细信息,请参见创建策略和值函数表示.
强化学习设计师 | 设计、训练和模拟强化学习代理 |
为强化学习创建Q-learning代理。
创建用于强化学习的SARSA代理。
创建用于强化学习的DQN代理。
创建用于强化学习的PG代理。
创建用于强化学习的DDPG代理。
创建用于强化学习的TD3代理。
创建用于强化学习的AC代理。
创建用于强化学习的PPO代理。
创建用于强化学习的TRPO代理。
创建用于强化学习的SAC代理。