文档帮助中心文档
SARSA代理的选择
使用RLSargentOptions对象来指定用于创建SARSA代理的选项。要创建SARSA代理,请使用萨金特
RLSargentOptions
萨金特
有关SARSA代理的更多信息,请参阅萨尔萨特工.
有关不同类型的强化学习代理的更多信息,请参阅强化学习代理.
opt=rlsargentoptions
opt=rlsargentoptions(名称、值)
选择=rlsargentoptions创建一个RLSargentOptions对象,在使用所有默认设置创建SARSA代理时用作参数。可以使用点表示法修改对象属性。
选择=rlsargentoptions
选择
实例
选择=rlsargentoptions(名称、值)设置选项性质使用名称-值对。例如RLSargantOptions('DiscountFactor',0.95)创建折扣系数为的选项集0.95. 可以指定多个名称-值对。用引号将每个属性名称括起来。
选择=rlsargentoptions(名称、值)
名称、值
RLSargantOptions('DiscountFactor',0.95)
0.95
全部展开
epsilongreedexploration
epsilon贪婪探索的选项,指定为epsilongreedexploration对象具有以下属性。
ε
1.
EpsilonMin
0.01
0.0050
在每个训练时间步结束时,如果ε大于EpsilonMin,然后使用以下公式进行更新。
ε=ε*(1-ε)
如果您的代理过于快速地收敛于局部最优解,您可以通过增加ε.
要指定探索选项,请在创建RLSargentOptions对象选择. 例如,将ε值设置为0.9.
0.9
opt.epsilongreedexploration.Epsilon=0.9;
取样时间
代理的采样时间,指定为正标量。
在Simulink万博1manbetx中®环境中,代理将在每个取样时间秒的模拟时间。
在MATLAB中®环境中,代理在环境每次前进时都会执行。然而取样时间是由返回的输出体验中连续元素之间的时间间隔模拟或火车.
模拟
火车
折扣因素
0.99
用于培训期间未来奖励的贴现因子,指定为小于或等于1的正标量。
全部崩溃
此示例演示如何创建SARSA代理选项对象。
创建一个RLSargentOptions对象,该对象指定代理采样时间。
opt=rlsargentoptions(“采样时间”,0.5)
opt=rlSarAgentOptions,属性为:epsilongreedExploration:[1x1 rl.option.epsilongreedExploration]采样时间:0.5000折扣因子:0.9900
您可以使用点符号修改选项。例如,将代理折扣系数设置为0.95.
opt.depresentfactor=0.95;
您拥有此示例的修改版本。是否要用编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处