为什么我的PPO RL代理人行动还通过上限和下限吗?

16个视图(30天)
我使用默认Matlab rappresentation PPO代理,我希望,我的一个动作只有在范围0 - 1,另一范围1 - 1。我已经建立了我的UpperLimit 1, LowerLimit 0或1。
17岁obsInfo = rlNumericSpec ([1]);
actInfo = rlNumericSpec ((5 - 1),
“UpperLimit”, 1
“LowerLimit”,(0;1;1;1;1);
env = rl万博1manbetxSimulinkEnv (“test_2”,“test_2 /代理”obsInfo actInfo,“UseFastRestart”,“关闭”);
ppo_opt = rlPPOAgentOptions (“SampleTime”,0.01);
agent_ppo = rlPPOAgent (obsInfo actInfo ppo_opt);
但是正如你所看到的,我的动作还可以通过限制(范围1应该在范围0 - 1,范围5范围内1 - 1)。
发生的所有行动的信号。如果我改变我的经纪人(例如DDPG)这不会发生。我怎样才能解决这个问题呢?
3评论
穆罕默德Fairuz阿卜杜勒·塔拉
我相信的极限usng双曲正切层meanpath 1和1是有界的,然而随着标准差路径的引入,它可能会超越边界。如果我错了,请纠正我。TQ操作。

登录置评。

答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!