为什么我的PPO RL代理人行动还通过上限和下限吗?

16个视图(30天)

显示旧的评论

运限运限 2021年10月7日

评论道: 穆罕默德Fairuz阿卜杜勒·塔拉2023年2月28日

我使用默认Matlab rappresentation PPO代理,我希望,我的一个动作只有在范围0 - 1,另一范围1 - 1。我已经建立了我的UpperLimit 1, LowerLimit 0或1。

17岁obsInfo = rlNumericSpec ([1]);

actInfo = rlNumericSpec ((5 - 1),…

“UpperLimit”, 1…

“LowerLimit”,(0;1;1;1;1);

env = rl万博1manbetxSimulinkEnv (“test_2”,“test_2 /代理”obsInfo actInfo,“UseFastRestart”,“关闭”);

ppo_opt = rlPPOAgentOptions (“SampleTime”,0.01);

agent_ppo = rlPPOAgent (obsInfo actInfo ppo_opt);

但是正如你所看到的,我的动作还可以通过限制(范围1应该在范围0 - 1,范围5范围内1 - 1)。

发生的所有行动的信号。如果我改变我的经纪人(例如DDPG)这不会发生。我怎样才能解决这个问题呢?

穆罕默德Fairuz阿卜杜勒·塔拉 2023年2月28日

我相信的极限usng双曲正切层meanpath 1和1是有界的,然而随着标准差路径的引入,它可能会超越边界。如果我错了,请纠正我。TQ操作。

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

R2021b

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!