在强化学习场景中,环境建模与代理交互的动态。环境:
从代理接收动作
输出来自环境模型动态行为的观察结果
产生奖励,衡量行动对完成任务的贡献程度
您可以使用Simulink模型创建预定义和自定义环境。万博1manbetx有关更多信息,请参见创建Simul万博1manbetxink强化学习环境.
RL代理 | 强化学习代理 |
使用与代理交互的Simulink模型对环境动态进行建模,生成响应代理动万博1manbetx作的奖励和观察。
为强化学习设计万博1manbetx器创建Simulink环境
导入自定义环境或创建预定义环境。
创造一个奖励信号来衡量代理人实现目标的成功程度。
您可以在预先定义了动作、观察、奖励和动态的Simulink模型的环境中训练代理。万博1manbetx
创建一个强化学习Simulink环境,其中包含一个RL Agen万博1manbetxt块来代替水箱中的水位控制器。