文件交换

图像缩略图

SARSA强化学习

版本1.0.0.0(117 KB)通过 Bhartendu
使用SARSA强化学习迷宫求解

18个下载

更新2017年5月24日

查看许可证

请参阅6.4(丝兰:通电策略TD控制),强化学习:简介,RS萨顿,AG巴托,麻省理工学院出版社
在本演示中,两个不同的迷宫已经被强化学习技术,SARSA解决。
国家行动 - 回报 - 国家行动(SARSA)是学习马尔可夫决策过程的政策,在强化学习中使用的算法。
行动值函数的SARSA,更新用:

Q(Š{T},A {吨}):= Q(S {T},A {吨})+α* [R {T + 1} +γ* Q(S {T + 1},A {T + 1}) - Q(Š{T},A {吨})]

学习率(α)
学习速率决定在何种程度上新近获得的信息将覆盖旧的信息。0一个因素将使代理没有学到什么东西,而1因素将使代理只考虑最近的信息。

贴现因子(γ)
贴现因子决定了将来的回报的重要性。0一个因素将使代理“投机取巧”只考虑当前的奖励,而接近1的一个因素将使争取一个长期的高回报。如果折扣系数达到或超过1时,Q值可能偏离。

注:融合是在特定的实例进行测试,一般衔接不知道上面的演示。

引用作为

Bhartendu(2020年)。SARSA强化学习(//www.tianjin-qmedu.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning),MATLAB中央文件交换。检索

评论和评分(

MATLAB版本兼容性
创建了R2016a
与任何版本兼容
平台兼容性
视窗 苹果系统 Linux的