强化学习代理
强化学习工具箱
使用RL试剂在Simulink中模拟和训练强化学习代理的块万博1manbetx®。将块与存储在MATLAB中的代理关联®工作区或数据字典作为代理对象,例如拉卡金特
或RLDDPG试剂
对象连接块,使其接收观察和计算的奖励。例如,考虑下面的框图RLSimplePendulmodel
模型
这个观察
的输入端口RL试剂块接收从摆锤的瞬时角度和角速度导出的信号。这个奖励
端口接收根据相同的两个值和应用的操作计算的奖励。您可以配置适合您的系统的观察和奖励计算。
块使用代理根据您提供的观察和奖励生成操作。连接行动
将输出端口连接到系统的相应输入RLSimplePendulmodel
这个行动
端口是应用于摆锤系统的扭矩。有关此模型的详细信息,请参见培训DQN代理摆动并平衡摆锤.
要在Simulink中训练强化学习代理,需要从Simulink模型生成一个环境。然后创万博1manbetx建并配置代理,以便针对该环境进行培训。有关详细信息,请参阅创建Simul万博1manbetxink强化学习环境. 当你打电话的时候火车
利用环境,火车
模拟模型并更新与块关联的代理。