万博1manbetx环境
使用仿真软件模型强化学习环境动力学万博1manbetx®模型
在强化学习的情况下,环境模型的动态代理进行交互。环境:
从代理接收行为
造成输出观测环境的动态行为模型
生成一个奖励测量的行动有助于实现这一任务
您可以创建预定义和自定义环境使用仿真软件模型。万博1manbetx有关更多信息,请参见创建模型强化学万博1manbetx习环境。
功能
块
RL代理 | 强化学习代理 |
主题
- 创建模型强化学万博1manbetx习环境
模型使用仿真软件环境动力学模型与代理进行交互,产生回报和观察代理人的行万博1manbetx为的反应。
- 在强化学习设计师创建或导入仿真软件万博1manbetx环境
导入自定义仿真软件环境或创造一个万博1manbetx预定义的仿真软件环境。
- 定义奖励信号
创建一个奖励的信号,衡量成功的代理是在实现其目标。
- 负载预定义的仿真软件环境万博1manbetx
负载预定义的控制系统仿真软件环境万博1manbetx。
- 水箱强化学习环境模型
创建一个强化学习仿真软件环境,包含一个RL代理块代替水箱的水位控万博1manbetx制器。