Sarsa加强学习代理
Sarsa算法是一种无模型,在线,策略的on-prodote加强学习方法。Sarsa代理是一家值得一位基于价值的加强学习代理,批评批评奖励或未来奖励。
有关萨拉代理商的更多信息,请参阅萨拉代表。
有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人。
火车 |
在指定环境中列车加固学习代理 |
SIM |
在指定环境中模拟培训的钢筋学习代理 |
努力 |
从代理商或演员代表获取行动给定环境观察 |
工作者 |
获取钢筋学习代理人的演员代表 |
setActor. |
设置强化学习agent的行动者表示 |
透镜 |
获取钢筋学习代理人的批评奖学金 |
setcritic. |
设定批评批评学习代理的代表 |
生成policyfunction. |
创建评估强化学习机训练策略的函数 |