MATLAB的答案

试用软件

强化学习训练代数循环延迟块

2次浏览(过去30天)

显示旧的注释

技术测井丁 2021年4月28日

0
链接

直接链接到这个问题

//www.tianjin-qmedu.com/matlabcentral/answers/815255-reinforcement-learning-training-algebraic-loop-delay-blocks

评论道: 技术测井丁2021年10月12日

你好,

我用一个模拟场景模型建立了一个RL训练，我需要使用延迟块来避免代数循环。然而，这会导致以下问题:

如果发生不希望发生的情况，模拟将终止。由于延迟块，模拟在下一个采样时间内终止(而不是立即)．这将导致RL代理将错误的经验元组视为导致终止的元组，从而错误地记录惩罚。
因此，所有的经验元组都会延迟一个采样时间记录的“动作”和“奖励”与准确的采样时间不符。

怎样才能解决这个问题呢?

3评论
显示隐藏旧的评论

技术测井丁 2021年10月12日

嗨越,

很抱歉这么晚才回复。我今天才看到你的评论。我选择使用一阶传递函数，它为我解决了这个问题。我确保一阶函数的延迟小于代理的采样时间。这样做，观察结果非常接近实际状态，这对我来说已经足够了。

亲切的问候,

科技Logg

登录评论。

登录回答这个问题。

答案(0)

登录回答这个问题。

类别

人工智能，数据科学和统计学深度学习工具箱深度学习应用使用深度神经网络的强化学习

标签

s manbetx 845

释放

R2021a

社区寻宝

在MATLAB Central中找到宝藏，并发现社区如何帮助您!

开始狩猎!

试用软件