强化学习训练代数循环延迟块

2次浏览(过去30天)
你好,
我用一个模拟场景模型建立了一个RL训练,我需要使用延迟块来避免代数循环。然而,这会导致以下问题:
  1. 如果发生不希望发生的情况,模拟将终止。由于延迟块,模拟在下一个采样时间内终止(而不是立即).这将导致RL代理将错误的经验元组视为导致终止的元组,从而错误地记录惩罚。
  2. 因此,所有的经验元组都会延迟一个采样时间记录的“动作”和“奖励”与准确的采样时间不符。
怎样才能解决这个问题呢?
3评论
技术测井丁
技术测井丁 2021年10月12日
嗨越,
很抱歉这么晚才回复。我今天才看到你的评论。我选择使用一阶传递函数,它为我解决了这个问题。我确保一阶函数的延迟小于代理的采样时间。这样做,观察结果非常接近实际状态,这对我来说已经足够了。
亲切的问候,
科技Logg

登录评论。

答案(0)

s manbetx 845


释放

R2021a

社区寻宝

在MATLAB Central中找到宝藏,并发现社区如何帮助您!

开始狩猎!