强化学习培训代理每次都有相同的输出

3视图(30天)

显示旧的评论

Jannick划船 2021年6月7日

评论道: Jannick划船2021年6月9日

TD3-Agend和训练结果verry好,我看着范围在培训期间我知道它应该,但不幸的是,模拟literarlly什么都没有。

Agend的输出并不改变,每次都一样,除非观察变化……

有人知道如何发生的?或者我能做什么不同?

Jannick划船 2021年6月9日

感谢你的回复!

我就去,如果输入是相同的,但事实并非如此。我运行仿真与当地重置函数的输入是每次都不同。我可以看到它从模型跟踪值和输入有什么并不重要,输出保持不变aufter培训。万博1manbetx

我有一个仔细的在培训,agend改变输出和增加奖励基本上everythink,但是aufter训练agend是无用的。

我想TD3-Agend优化控制器,所以只是一个动作,基于观察的开始。

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

R2021a

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的