是否有任何理由在满足停止标准时不执行ISDONE命令的加固代理?

6次观看(最近30天)
菲利普昏暗
菲利普昏暗 2021年8月21日
回答: 菲利普昏暗在2021年9月8日
目前,我正在研究一个rl-agent,该rl-agent旨在充当无人机的位置/定位控制器。但是,我在培训期间遇到的问题是,每次迭代的停止标准都无法执行。RL块重现了命令(ISDONE),即实现了停止状态(无论是从范围中排除还是在任何轴上翻转),但是训练迭代一直持续到达到执行时间限制为止。有什么原因是,即使停止状态达到了停止状态,RL块也不会停止迭代?
为了提供更多解释,这里是一张实现停止状态的迭代之一的图片,但模拟继续执行导致不合理的奖励号码。
最高奖励,底部停止标准
(上图奖励功能卵形时间,底部图随着时间的推移停止标准)
IM使用相同迭代的停止标准:
如果需要进一步的解释或数据,我很高兴提前提供它。

答案(1)

菲利普昏暗
菲利普昏暗 在2021年9月8日
确定有关此问题的更新/解决方案。当前(如2021A版中,在执行Costom Env.ResetFCN并在实现Stop SIM(ISDONE)标准时执行Costom Env.ResetFCN并停止模拟时,强化学习设计师都无法运行。您可以正确地将此功能适当地获得功能的唯一方法是旧脚本方法(模拟示例: OpenExample('rl/simscapecartpoleddpgexample') )。
希望这对某个正在处理同一问题的人有帮助。