文档帮助中心
角色-批评家强化学习代理
行为-批评(AC)代理实现行为-批评算法,如A2C和A3C,这是一种无模型的、在线的、基于策略的强化学习方法。这个代理的目标是直接优化策略(参与者)并训练一个评论家来估计回报或未来的回报。
有关更多信息,请参见Actor-Critic代理。
有关不同类型的强化学习代理的更多信息,请参见强化学习代理。
代理= rlACAgent(演员、评论家、agentOptions)
例子
代理= rlACAgent (演员,评论家,agentOptions)使用指定的actor和批评家网络创建actor-批评家代理,并设置AgentOptions财产。
代理= rlACAgent (演员,评论家,agentOptions)
代理
演员
评论家
agentOptions
AgentOptions
全部展开
rlStochasticActorRepresentation
策略的Actor网络表示,指定为rlStochasticActorRepresentation对象。有关创建参与者表示的更多信息,请参见创建策略和值函数表示。
rlValueRepresentation
评论家网络代表估计贴现的长期回报,指定为rlValueRepresentation。有关创建批评家表示的更多信息,请参见创建策略和值函数表示。
rlACAgentOptions
代理选项,指定为rlACAgentOptions对象。
火车
sim卡
getActor
setActor
getCritic
setCritic
generatePolicyFunction
全部折叠
创建环境接口并获取其观察和操作规范。
env = rlPredefinedEnv (“CartPole-Discrete”);obsInfo = getObservationInfo (env);actInfo = getActionInfo (env);
创建一个批评家表示。
创建一个网络,在评论中作为近似器使用关键网络= [imageInputLayer([4 1 1]),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (1,“名字”,“CriticFC”));为评论者设置一些选项criticOpts = rlRepresentationOptions (“LearnRate”,8 e - 3,“GradientThreshold”1);%创建评论评论家= rlValueRepresentation (criticNetwork obsInfo,“观察”,{“状态”},criticOpts);
创建一个actor表示。
创建要用作actor中的逼近器的网络actorNetwork = [imageInputLayer([4 1 1]),“归一化”,“没有”,“名字”,“状态”)fullyConnectedLayer (2“名字”,“行动”));为actor设置一些选项actorOpts = rlRepresentationOptions (“LearnRate”,8 e - 3,“GradientThreshold”1);%创建角色演员= rlStochasticActorRepresentation (actorNetwork obsInfo actInfo,…“观察”,{“状态”},actorOpts);
指定代理选项,并使用环境、actor和批评家创建一个AC代理。
agentOpts = rlACAgentOptions (“NumStepsToLookAhead”32岁的“DiscountFactor”,0.99);代理= rlACAgent(演员、评论家、agentOpts)
agent = rlACAgent with properties: AgentOptions: [1x1 rl.option.rlACAgentOptions]
要检查代理,请使用getAction从随机观察返回操作。
getAction(代理,{兰德(4,1)})
ans = -10
现在可以根据环境测试和培训代理。
您的系统中存在此示例的修改版本。你想打开这个版本吗?
你点击了一个链接,对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入该命令来运行它。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站来获取可用的翻译内容,并查看本地事件和报价。根据你的位置,我们建议你选择:。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文),以获得最佳的网站表现。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系你当地的办公室
得到审判现在