请参阅6.4(丝兰:通电策略TD控制),强化学习:简介,RS萨顿,AG巴托,麻省理工学院出版社
在本演示中,两个不同的迷宫已经被强化学习技术,SARSA解决。
国家行动 - 回报 - 国家行动(SARSA)是学习马尔可夫决策过程的政策,在强化学习中使用的算法。
行动值函数的SARSA,更新用:
Q(Š{T},A {吨}):= Q(S {T},A {吨})+α* [R {T + 1} +γ* Q(S {T + 1},A {T + 1}) - Q(Š{T},A {吨})]
学习率(α)
学习速率决定在何种程度上新近获得的信息将覆盖旧的信息。0一个因素将使代理没有学到什么东西,而1因素将使代理只考虑最近的信息。
贴现因子(γ)
贴现因子决定了将来的回报的重要性。0一个因素将使代理“投机取巧”只考虑当前的奖励,而接近1的一个因素将使争取一个长期的高回报。如果折扣系数达到或超过1时,Q值可能偏离。
注:融合是在特定的实例进行测试,一般衔接不知道上面的演示。
Bhartendu(2020年)。SARSA强化学习(//www.tianjin-qmedu.com/matlabcentral/fileexchange/63089-sarsa-reinforcement-learning),MATLAB中央文件交换。检索。
张森(查看资料)
宝诚潘(查看资料)
地球科学学习者(查看资料)
萨加尔·库马尔破折号(查看资料)
DUSHYANTH S R(查看资料)