强化学习培训代理每次都有相同的输出

3视图(30天)
TD3-Agend和训练结果verry好,我看着范围在培训期间我知道它应该,但不幸的是,模拟literarlly什么都没有。
Agend的输出并不改变,每次都一样,除非观察变化……
有人知道如何发生的?或者我能做什么不同?
2的评论
Jannick划船
Jannick划船 2021年6月9日
感谢你的回复!
我就去,如果输入是相同的,但事实并非如此。我运行仿真与当地重置函数的输入是每次都不同。我可以看到它从模型跟踪值和输入有什么并不重要,输出保持不变aufter培训。万博1manbetx
我有一个仔细的在培训,agend改变输出和增加奖励基本上everythink,但是aufter训练agend是无用的。
我想TD3-Agend优化控制器,所以只是一个动作,基于观察的开始。

登录置评。

答案(0)

s manbetx 845


释放

R2021a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的