文档帮助中心
Q-learning强化学习代理
q -学习算法是一种无模型、在线、离线的强化学习方法。Q-learning agent是一种基于价值的强化学习agent,它训练批评者估计回报或未来回报。
有关Q-learning代理的更多信息,请参见q学习的代理。
有关不同类型的强化学习代理的更多信息,请参见强化学习代理。
代理= rlQAgent(评论家,agentOptions)
例子
代理= rlQAgent (评论家,agentOptions)使用指定的评论家网络创建Q-learning代理,并设置AgentOptions财产。
代理= rlQAgent (评论家,agentOptions)
代理
评论家
agentOptions
AgentOptions
全部展开
rlQValueRepresentation
评论家网络表示,指定为rlQValueRepresentation对象。有关创建批评家表示的更多信息,请参见创建策略和值函数表示。
rlQAgentOptions
代理选项,指定为rlQAgentOptions对象。
火车
sim卡
getActor
setActor
getCritic
setCritic
generatePolicyFunction
全部折叠
创建一个环境接口。
env = rlPredefinedEnv (“BasicGridWorld”);
使用从环境观察和操作规范中导出的q表,创建一个评论家q值函数表示。
qTable = rlTable (getObservationInfo (env) getActionInfo (env));评论家= rlQValueRepresentation (qTable getObservationInfo (env) getActionInfo (env));
使用指定的批评家值函数和的epsilon值创建Q-learning代理0.05。
0.05
选择= rlQAgentOptions;opt.EpsilonGreedyExploration。ε= 0.05;代理= rlQAgent(评论家,选择)
agent = rlQAgent with properties: AgentOptions: [1x1 rl.option.rlQAgentOptions]
要检查代理,请使用getAction从随机观察返回操作。
getAction(代理,{兰迪(25)})
ans = 1
现在可以根据环境测试和培训代理。
您的系统中存在此示例的修改版本。你想打开这个版本吗?
你点击了一个链接,对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入该命令来运行它。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站来获取可用的翻译内容,并查看本地事件和报价。根据你的位置,我们建议你选择:。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文),以获得最佳的网站表现。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系你当地的办公室
得到审判现在