强化学习代理从环境中获得观察和奖励。代理使用其策略,根据观察和奖励选择一个操作,并将该操作发送到环境。在培训期间,代理会根据行动、观察和奖励不断更新策略参数。这样,代理就可以学习给定环境和奖励信号的最优策略。
强化学习工具箱™ 软件提供使用几种常用算法的强化学习代理,如SARSA、DQN、DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。
有关详细信息,请参阅强化学习代理。有关定义策略表示的详细信息,请参阅创建策略和值函数表示.
强化学习设计师 | 设计、培训和模拟强化学习代理 |
为强化学习创建Q-学习代理。
创建用于强化学习的SARSA代理。
为强化学习创建DQN代理。
为强化学习创建PG代理。
为强化学习创建DDPG代理。
为强化学习创建TD3代理。
为强化学习创建AC代理。
为强化学习创建PPO代理。
为强化学习创建TRPO代理。
创建用于强化学习的SAC代理。