SARSA强化学习- File Exchange - MATLAB Central - 万博1manbetx,s manbetx 845,万博尤文图斯

SARSA强化学习

版本1.0.0.0（117 KB）通过 Bhartendu

使用SARSA强化学习迷宫求解

5个评级

18个下载

更新2017年5月24日

请参阅6.4（丝兰：通电策略TD控制），强化学习：简介，RS萨顿，AG巴托，麻省理工学院出版社
在本演示中，两个不同的迷宫已经被强化学习技术，SARSA解决。
国家行动 - 回报 - 国家行动（SARSA）是学习马尔可夫决策过程的政策，在强化学习中使用的算法。
行动值函数的SARSA，更新用：

Q（Š{T}，A {吨}）：= Q（S {T}，A {吨}）+α* [R {T + 1} +γ* Q（S {T + 1}，A {T + 1}） - Q（Š{T}，A {吨}）]

学习率（α）
学习速率决定在何种程度上新近获得的信息将覆盖旧的信息。0一个因素将使代理没有学到什么东西，而1因素将使代理只考虑最近的信息。

贴现因子（γ）
贴现因子决定了将来的回报的重要性。0一个因素将使代理“投机取巧”只考虑当前的奖励，而接近1的一个因素将使争取一个长期的高回报。如果折扣系数达到或超过1时，Q值可能偏离。

注：融合是在特定的实例进行测试，一般衔接不知道上面的演示。

Bhartendu（2020年）。SARSA强化学习（//www.tianjin-qmedu.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning），MATLAB中央文件交换。检索2020年7月18日。

张森

张森（查看资料）

2个文件

30个下载

5

2017年12月25日

宝诚潘

宝诚潘（查看资料）

0文件

0下载

0.0

2017年11月21日

地球科学学习者

地球科学学习者（查看资料）

2个文件

53个下载

5

2017年10月7日

萨加尔·库马尔破折号

萨加尔·库马尔破折号（查看资料）

0文件

0下载

0.0

2017年6月19日

DUSHYANTH S R

DUSHYANTH S R（查看资料）

0文件

0下载

0.0

2017年5月24日

创建了R2016a

与任何版本兼容

视窗苹果系统 Linux的