为什么我的PPO RL代理人行动还通过上限和下限吗?
16个视图(30天)
显示旧的评论
我使用默认Matlab rappresentation PPO代理,我希望,我的一个动作只有在范围0 - 1,另一范围1 - 1。我已经建立了我的UpperLimit 1, LowerLimit 0或1。
17岁obsInfo = rlNumericSpec ([1]);
actInfo = rlNumericSpec ((5 - 1),…
“UpperLimit”, 1…
“LowerLimit”,(0;1;1;1;1);
env = rl万博1manbetxSimulinkEnv (“test_2”,“test_2 /代理”obsInfo actInfo,“UseFastRestart”,“关闭”);
ppo_opt = rlPPOAgentOptions (“SampleTime”,0.01);
agent_ppo = rlPPOAgent (obsInfo actInfo ppo_opt);
但是正如你所看到的,我的动作还可以通过限制(范围1应该在范围0 - 1,范围5范围内1 - 1)。
发生的所有行动的信号。如果我改变我的经纪人(例如DDPG)这不会发生。我怎样才能解决这个问题呢?