钢筋学习工具箱™软件提供预定义的Simulink万博1manbetx®已经定义了行为、观察、奖励和动态的环境。你可以使用这些环境:
学习强化学习概念。
熟悉强化学习工具箱软件。特性
测试你自己的强化学习代理。
可以使用。加载下列预定义的Simulink环境万博1manbetxrlPredefinedEnv
函数。
环境 | 代理任务 |
---|---|
单摆Simulink模型万博1manbetx | 利用一个离散或连续的动作空间,使一个单摆摆起来并保持平衡。 |
Cart-pole Simscape™模型 | 通过使用离散或连续的动作空间对移动的推车施加力来平衡移动的推车上的柱子。 |
对于预定义的Simulink环万博1manbetx境,在相应的Simulink模型中定义了环境动态、观测和奖励信号。的rlPredefinedEnv
函数创建一个万博1manbetxSimulinkEnvWithAgent
对象,火车
函数用于与Simulink模型交互。万博1manbetx
这种环境是一个简单的无摩擦摆,最初挂在向下的位置。训练的目标是使钟摆直立起来,而不跌倒,使用最小的控制努力。中定义了此环境的模型rlSimplePendulumModel
万博1manbetx仿真软件模型。
open_system (“rlSimplePendulumModel”)
有两种单摆环境变量,它们随代理行为空间的不同而不同。
离散代理可以施加一个扭矩T马克斯,0
,或者,T马克斯到钟摆那里去T马克斯是max_tau
模型工作区中的变量。
连续介质可施加[-]范围内的任何扭矩T马克斯,T马克斯]。
创建一个简单的钟摆环境,使用rlPredefinedEnv
函数。
离散行动空间
env = rlPredefinedEnv (“SimplePendulumModel-Discrete”);
持续的行动空间
env = rlPredefinedEnv (“SimplePendulumModel-Continuous”);
有关在单摆环境中训练代理的示例,请参见:
在单摆环境中,代理使用一个动作信号与环境交互,这个动作信号就是施加在单摆基座上的力矩。环境包含此操作信号的规范对象。就环境而言:
离散的动作空间,规范为rlFiniteSetSpec
对象。
连续动作空间,规范是一个rlNumericSpec
对象。
有关从环境获取操作规范的更多信息,请参见getActionInfo
。
在单摆环境中,agent接收到以下三个观察信号,这些信号是在创建的观察子系统。
摆角的正弦值
摆角的余弦
摆角的导数
对于每个观测信号,环境包含一个rlNumericSpec
观测规范。所有的观测都是连续无界的。
有关从环境获取观测规范的更多信息,请参见getObservationInfo
。
这个环境的奖励信号,是在计算奖励子系统,是
在这里:
θt是摆角的位移从直立位置。
是摆角的导数。
ut - 1是来自前一个时间步骤的控制努力。
在预定义的车杆环境中,代理的目标是通过对车施加水平力来平衡移动车上的杆。如果满足以下两个条件,则认为是成功的平衡杆:
极角保持在垂直位置的给定阈值内,其中垂直位置为零弧度。
购物车位置的大小仍然低于给定的阈值。
中定义了此环境的模型rlCartPoleSimscapeModel
万博1manbetx仿真软件模型。该模型的动态特性是用Simscape多体™。
open_system (“rlCartPoleSimscapeModel”)
在环境在子系统中,使用Simscape组件定义模型动态,使用Simulink块构造奖励和观察。万博1manbetx
open_system (“rlCartPoleSimscapeModel /环境”)
有两种环境变量,它们因代理操作空间的不同而不同。
离散代理可以施加一个力15
,0
,或-15年
购物车。
连续介质可在[-15年
,15
]。
要创建一个车仗环境,请使用rlPredefinedEnv
函数。
离散行动空间
env = rlPredefinedEnv (“CartPoleSimscapeModel-Discrete”);
持续的行动空间
env = rlPredefinedEnv (“CartPoleSimscapeModel-Continuous”);
例如,在这个cart-pole环境中培训代理,参见训练DDPG药剂摆动和平衡吊柱系统。
在电线杆环境中,代理使用一个单独的动作信号(作用于小车的力)与环境交互。环境包含此操作信号的规范对象。就环境而言:
离散的动作空间,规范为rlFiniteSetSpec
对象。
连续动作空间,规范是一个rlNumericSpec
对象。
有关从环境获取操作规范的更多信息,请参见getActionInfo
。
在电线杆环境中,agent接收到以下五个观察信号。
极角的正弦值
极角的余弦
摆角的导数
车的位置
车位导数
对于每个观测信号,环境包含一个rlNumericSpec
观测规范。所有的观测都是连续无界的。
有关从环境获取观测规范的更多信息,请参见getObservationInfo
。
这种环境的奖励信号是三个组成部分(r=rqr+rn+rp):
二次型调节器控制报酬,构造在环境/ qr奖励
子系统。
一个额外的奖励,当杆是附近的直立位置,建设在环境/近直立的奖励
子系统。
一个购物车限制罚款,构造在环境/ x限制处罚
子系统。当购物车位置的大小超过给定的阈值时,这个子系统将产生一个负的奖励。
在这里:
x是小车的位置。
θ是相对于垂直位置的位移极角。
ut - 1是来自前一个时间步骤的控制努力。