钢筋学习工具箱™软件提供预定义的Simulink万博1manbetx®在已经定义了操作,观察,奖励和动态的环境。您可以使用这些环境:
学习强化学习概念。
熟悉强化学习工具箱软件功能。
测试自己的强化学习代理。
您可以使用以下方法加载以下预定义的Simulink环境万博1manbetxRlpredefinedenv.
功能。
环境 | 代理任务 |
---|---|
单摆Simulink模型万博1manbetx | 使用离散或连续动作空间摆动并平衡单摆。 |
手推车杆模拟风景™ 模型 | 通过使用离散或连续的动作空间将力施加到购物车上的移动电车上的平衡。 |
对于预定义的Simulink环万博1manbetx境,环境动态,观察和奖励信号在相应的Simulink模型中定义。这Rlpredefinedenv.
功能创建A.万博1manbetxSimulinkenvwithagent.
对象火车
函数用于与Simulink模型交互。万博1manbetx
该环境是一个简单的无摩擦摆,最初悬挂在向下位置。培训目标是使摆锤直立,而不会使用最小的控制工作。此环境的模型是定义的RLSimplePendulmodel
万博1manbetxSimulink模型。
开放式系统(“rlSimplePendulumModel”)
有两种单摆环境变量,它们因代理操作空间而异。
离散代理可以施加任何一个扭矩T.最大值那0.
,或-T.最大值到摆锤,在哪里T.最大值是Max_tau.
模型工作区中的变量。
连续代理可以在范围内施加任何扭矩[ -T.最大值那T.最大值].
要创建一个简单的摆动环境,请使用Rlpredefinedenv.
功能。
离散的动作空间
Env = Rlpredefinedenv('SimpleDepulummodel-Collete');
连续动作空间
Env = Rlpredefinedenv('SimpleDepulummodel连续');
例如,培训代理在简单的摆动环境中,请参阅:
在单摆环境中,代理使用单个动作信号与环境交互,该动作信号是施加在摆底部的扭矩。环境包含此动作信号的规范对象。对于具有:
离散的动作空间,规范是一个rlfinitesetspec.
对象
连续动作空间,规范是一个rlNumericSpec
对象
有关从环境中获取动作规范的详细信息,请参阅getActionInfo
。
在简单的摆动环境中,代理接收以下三个观察信号,该信号在其中构建创建观察结果子系统。
摆角的正弦角
摆锤角度的余弦
摆角的衍生物
对于每个观察信号,环境包含一个rlNumericSpec
观察规范。所有观察结果都是连续和无界的。
有关从环境中获取观测规范的详细信息,请参见获取观测信息
。
此环境的奖励信号,在计算奖励子系统,是
这里:
θT.是摆锤相对于直立位置的位移角。
是摆角的衍生物。
你t-1是前一步的控制力。
预定推出的推车环境中的代理的目标是通过将水平力应用于推车来平衡移动推车上的杆。如果满足以下两个条件,则杆被认为成功平衡:
极角保持在垂直位置的给定阈值内,其中垂直位置是零弧度。
推车位置的大小保持在给定阈值以下。
此环境的模型是定义的rlcartpolesimscapemodel.
万博1manbetxSimulink模型。使用此模型的动态定义Simscape多体™。
开放式系统(“RLCartPolesimCapeModel”)
在环境子系统中,使用Simscape组件定义模型动力学,使用Simulink块构建奖励和观察。万博1manbetx
开放式系统('rlcartpolesimscapemodel /环境')
有两个推车杆环境变体,由代理动作空间不同。
离散 - 代理可以施加力量15.
那0.
, 或者-15
去购物车。
连续-代理可以在范围内施加任何力[-15
那15.
].
要创建购物车环境,请使用Rlpredefinedenv.
功能。
离散的动作空间
Env = Rlpredefinedenv(“CartpolesisCapeModel离散”);
连续动作空间
Env = Rlpredefinedenv(“cartpolesiscapemodel Continuous”);
有关在此卡车环境中培训代理的示例,请参阅火车DDPG代理摇摆和平衡车杆系统。
在推车杆环境中,代理使用单个动作信号与环境交互,施加到推车的力。环境包含此动作信号的规范对象。对于环境的环境:
离散的动作空间,规范是一个rlfinitesetspec.
对象
连续动作空间,规范是一个rlNumericSpec
对象
有关从环境中获取动作规范的详细信息,请参阅getActionInfo
。
在cart-pole环境中,代理接收以下五个观察信号。
杆角度的正弦
极点角度的余弦
摆角的衍生物
购物车位置
推车位置的衍生物
对于每个观察信号,环境包含一个rlNumericSpec
观察规范。所有观察结果都是连续和无界的。
有关从环境中获取观测规范的详细信息,请参见获取观测信息
。
此环境的奖励信号是两个组件的总和(R.=R.QR.+R.N+R.P.):
一种二次调节器控制奖励,构建在环境/品质奖励
子系统。
购物车限制罚款,建造在环境/x限制处罚
子系统。当购物车位置的大小超过给定阈值时,该子系统生成负奖励。
这里:
X这是购物车的位置。
θ是从直立位置的位移的极点角度。
你t-1是前一步的控制力。