强化学习工具箱™ 软件提供预定义的Simulink万博1manbetx®已经为其定义了行动、观察、奖励和动态的环境。您可以使用这些环境来:
学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试您自己的强化学习代理。
您可以使用万博1manbetxrlPredefinedEnv
作用
环境 | 代理任务 |
---|---|
单摆Simulink模型万博1manbetx | 用离散或连续的动作空间向上摆动并平衡一个简单的钟摆。 |
Cart-pole Simscape™模型 | 通过使用离散或连续动作空间对移动的推车施加力来平衡推车上的杆。 |
对于预定义的Simulink环万博1manbetx境,在相应的Simulink模型中定义了环境动力学、观测和奖励信号rlPredefinedEnv
函数创建一个万博1manbetx与代理同步
反对火车
函数用于与Simulink模型交互。万博1manbetx
该环境是一个简单的无摩擦摆,最初悬挂在向下的位置。训练目标是使用最小的控制力使摆直立而不摔倒。该环境的模型在rlSimplePendulumModel
万博1manbetx仿真软件模型。
open_system (“rlSimplePendulumModel”)
有两种简单的摆环境变体,它们根据agent的行动空间而不同。
离散代理可以应用任意一个T马克斯,0
,或者,T马克斯到钟摆那里去T马克斯是马克斯头
变量。
连续-代理可以在范围内施加任何扭矩[-T马克斯,T马克斯].
要创建单摆环境,请使用rlPredefinedEnv
作用
离散动作空间
env=rlPredefinedEnv(“SimplePendulumModel离散”);
持续的行动空间
env=rlPredefinedEnv(“SimplePendulumModel连续”);
有关在单摆环境中培训代理的示例,请参见:
在单摆环境中,代理与环境交互使用一个单一的动作信号,即施加在摆底部的力矩。环境包含此动作信号的规范对象。对于环境有一个:
离散动作空间,规范是一个rlFiniteSetSpec
对象。
连续的动作空间,是一种规范rlNumericSpec
对象。
有关从环境中获取操作规范的更多信息,请参阅getActionInfo
.
在单摆环境中,agent接收以下三个观察信号,它们在创建的观察子系统。
摆角正弦
摆角余弦
摆角导数
对于每个观测信号,环境包含一个rlNumericSpec
观察规范。所有观察都是连续的和无界的。
有关从环境获取观察规范的更多信息,请参见getObservationInfo
.
这个环境的奖励信号,是在计酬子系统,是
在这里:
θT为从垂直位置位移的摆角。
是摆锤角度的导数。
Ut - 1是上一时间步的控制效果。
在预定义的手推车杆环境中,agent的目标是通过向手推车施加水平力来平衡移动手推车上的杆。如果满足以下两个条件,则认为杆已成功平衡:
极角保持在垂直位置的给定阈值内,其中垂直位置为零弧度。
小车位置的大小保持在给定阈值以下。
此环境的模型在中定义rlcartpolesiscape模型
万博1manbetxSimulink模型。此模型的动力学定义为Simscape多体™.
open_system (“rlCartPoleSimscapeModel”)
在环境利用Simscape组件定义模型动力学,利用Simulink模块构建奖励和观察。万博1manbetx
open_system (“RLCartPolesimCapeModel/Environment”)
有两种cart-pole环境变体,它们因代理操作空间而异。
离散代理可以应用15
,0
或-15
购物车。
连续-药剂可施加范围内的任何力[-15
,15
].
要创建购物车立柱环境,请使用rlPredefinedEnv
作用
离散动作空间
env=rlPredefinedEnv(“CartPoleSimscapeModel-Discrete”);
持续的行动空间
env=rlPredefinedEnv(“CartPoleSimscapeModel-Continuous”);
有关在此cart-pole环境中培训代理的示例,请参见培训DDPG代理摆动和平衡车杆系统.
在cart-pole环境中,代理使用单个动作信号(施加到cart上的力)与环境交互。环境包含此动作信号的规范对象。对于具有:
离散动作空间,规范是一个rlFiniteSetSpec
对象。
连续的动作空间,是一种规范rlNumericSpec
对象。
有关从环境中获取操作规范的更多信息,请参阅getActionInfo
.
在车杆环境中,agent接收到以下5个观测信号。
极角正弦
极角余弦
摆角导数
大车位置
大车位置导数
对于每个观测信号,环境包含一个rlNumericSpec
观察规范。所有观察都是连续的和无界的。
有关从环境获取观察规范的更多信息,请参见getObservationInfo
.
这种环境的奖励信号是两个组成部分的总和(R=Rqr+RN+RP):
二次调节器控制报酬,在环境/ qr奖励
子系统。
在环境/ x限制处罚
子系统。当购物车位置的大小超过给定的阈值时,这个子系统生成一个负奖励。
在这里:
x是车的位置。
θ是从垂直位置的杆位移角。
Ut - 1是上一时间步的控制效果。