事实上,我认为停止训练的平均奖励值太低了。我将保持更新,如果这是有效的:)
DDPG代理停止训练
11次观看(过去30天)
显示旧的评论
你好,
当训练我的RL代理时,由于某些原因,它在大约100集(通常更少)后停止训练,我设置的限制通常更少。我怀疑训练是否因为我的simulink模型中的“isdone”信号而停止了(除非在仅仅100集之后,它成功地得到了我指定的内容?)万博1manbetx
任何帮助或建议将不胜感激!
编辑:当我写这篇文章的时候,我意识到我的“isdone”信号的一部分是为了让我的模型的输出恰好是一个值——这可能是它获得一个值然后停止的原因吗?