主要内容

代理商

使用常见算法(例如SARSA,DQN,DDPG和PPO)创建和配置增强学习剂

强化学习者会收到观察结果和环境的奖励。使用其政策,代理商根据观察结果和奖励选择了一项措施,并将操作发送给环境。在培训期间,代理商根据动作,观察和奖励不断更新策略参数。这样做,允许代理商学习给定环境和奖励信号的最佳政策。

强化学习工具箱™软件提供了使用多种常见算法的增强学习代理,例如SARSA,DQN,DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息,请参阅强化学习者。有关定义策略表示的更多信息,请参见创建策略和价值功能

应用

强化学习设计师 设计,训练和模拟加固学习代理

功能

展开全部

rlqagent Q学习加强学习代理
rlsarsaagent SARSA加固学习代理
rldqnagent 深Q网络加固学习代理
rlpgagent 政策梯度加强学习代理
rlddpgagent 深层确定性政策梯度强化学习代理
rltd3agent 双胞胎延迟的深层确定性政策梯度加强学习代理
rlacagent 演员批判性强化学习者
rlppoagent 近端政策优化强化学习代理
rltrpoagent 信任区域政策优化强化学习代理
rlsAcagent 软演员批判性的增强剂
rlqagentoptions Q学习代理的选项
rlsarsaagentoptions SARSA代理的选项
rldqnagentoptions DQN代理的选项
rlpgagentoptions PG代理的选项
RLDDPGAGENTOPTIONS DDPG代理的选项
rltd3agentoptions TD3代理的选项
rlacagentoptions 交流代理的选项
rlppoagentoptions PPO代理的选项
rltrpoagentoptions TRPO代理的选项
rlsAcagentOptions SAC代理的选项
RlagentInitializatizationAptions 初始化强化学习代理的选项
rlmbpoagent 基于模型的政策优化强化学习代理
rlmbpoagentoptions MBPO代理的选项
getactor 从强化学习者那里获得演员
GetCritic 从加强学习者那里获取评论家
setActor 加固学习代理人的演员
setcritic 设定加强学习者的批评家
getAction 给定环境观察的代理商或演员采取行动
rlreplaymemory 重播内存体验缓冲区
附加 附加体验以重播内存缓冲区
样本 重播记忆缓冲区的示例经历
重置 重置环境,代理,体验缓冲或策略对象

话题

代理基础知识

代理类型

定制代理商