rlQAgent

Q-learning强化学习代理

全部展开到页面中

描述

q -学习算法是一种无模型、在线、离线的强化学习方法。Q-learning agent是一种基于价值的强化学习agent，它训练批评者估计回报或未来回报。

有关Q-learning代理的更多信息，请参见q学习的代理。

有关不同类型的强化学习代理的更多信息，请参见强化学习代理。

创建

语法

代理= rlQAgent(评论家,agentOptions)

描述

例子

代理= rlQAgent (评论家,agentOptions)使用指定的评论家网络创建Q-learning代理，并设置AgentOptions财产。

输入参数

全部展开

`评论家`- - - - - -评论家表示网络
`rlQValueRepresentation`对象

评论家网络表示，指定为rlQValueRepresentation对象。有关创建批评家表示的更多信息，请参见创建策略和值函数表示。

属性

全部展开

`AgentOptions`- - - - - -剂的选择
`rlQAgentOptions`对象

代理选项，指定为rlQAgentOptions对象。

对象的功能

`火车`	在指定的环境中训练强化学习代理
`sim卡`	在指定的环境中模拟一个训练有素的强化学习代理
`getActor`	从强化学习代理中得到角色表示
`setActor`	集合了增强学习代理的参与者表示
`getCritic`	从强化学习代理中得到批评家表示
`setCritic`	设置增强学习代理的批评家表示
`generatePolicyFunction`	建立评估强化学习代理训练策略的函数

例子

全部折叠

创建一个Q-Learning代理

打开生活的脚本

创建一个环境接口。

env = rlPredefinedEnv (“BasicGridWorld”);

使用从环境观察和操作规范中导出的q表，创建一个评论家q值函数表示。

qTable = rlTable (getObservationInfo (env) getActionInfo (env));评论家= rlQValueRepresentation (qTable getObservationInfo (env) getActionInfo (env));

使用指定的批评家值函数和的epsilon值创建Q-learning代理0.05。

选择= rlQAgentOptions;opt.EpsilonGreedyExploration。ε= 0.05;代理= rlQAgent(评论家,选择)

agent = rlQAgent with properties: AgentOptions: [1x1 rl.option.rlQAgentOptions]

要检查代理，请使用getAction从随机观察返回操作。

getAction(代理,{兰迪(25)})

ans = 1

现在可以根据环境测试和培训代理。

另请参阅

功能

rlQAgentOptions

主题

介绍了R2019a

强化学习工具箱文档

万博1manbetx

尝试MATLAB、Sim万博1manbetxulink和其他产品s manbetx 845

得到审判现在