代理商
使用常见算法(例如SARSA,DQN,DDPG和PPO)创建和配置增强学习剂
应用
强化学习设计师 | 设计,训练和模拟加固学习代理 |
功能
话题
代理基础知识
- 强化学习者
您可以使用几种标准强化学习算法之一创建代理,也可以定义自己的自定义代理。 - 使用加固学习设计师创建代理
使用强化学习设计师应用程序进行交互作用或进口代理,用于培训。
代理类型
- Q学习代理
创建Q学习代理以进行强化学习。 - SARSA代理商
创建用于加固学习的SARSA代理。 - 深Q网络代理
创建用于增强学习的DQN代理。 - 政策梯度代理
创建用于强化学习的PG代理。 - 深层确定性政策梯度代理商
创建用于增强学习的DDPG代理。 - 双胞胎延迟的深层确定性政策梯度代理商
创建用于增强学习的TD3代理。 - 演员批评者
创建用于增强学习的AC代理。 - 近端政策优化代理
创建用于增强学习的PPO代理。 - 信任区域政策优化代理
创建用于强化学习的TRPO代理。 - 软演员批评剂
创建用于增强学习的SAC代理。 - 基于模型的策略优化代理
基于模型的强化学习代理人学习了其环境模型,它可以用来为培训生成其他体验。
定制代理商
- 创建自定义加强学习代理商
创建使用自定义增强学习算法的代理。