帮助中心帮助中心

代理商

使用常见算法（例如SARSA，DQN，DDPG和PPO）创建和配置增强学习剂

强化学习者会收到观察结果和环境的奖励。使用其政策，代理商根据观察结果和奖励选择了一项措施，并将操作发送给环境。在培训期间，代理商根据动作，观察和奖励不断更新策略参数。这样做，允许代理商学习给定环境和奖励信号的最佳政策。

强化学习工具箱™软件提供了使用多种常见算法的增强学习代理，例如SARSA，DQN，DDPG和PPO。您还可以通过创建自己的自定义代理来实现其他代理算法。

有关更多信息，请参阅强化学习者。有关定义策略表示的更多信息，请参见创建策略和价值功能。

应用

强化学习设计师

设计，训练和模拟加固学习代理

功能

代理商

`rlqagent`	Q学习加强学习代理
`rlsarsaagent`	SARSA加固学习代理
`rldqnagent`	深Q网络加固学习代理
`rlpgagent`	政策梯度加强学习代理
`rlddpgagent`	深层确定性政策梯度强化学习代理
`rltd3agent`	双胞胎延迟的深层确定性政策梯度加强学习代理
`rlacagent`	演员批判性强化学习者
`rlppoagent`	近端政策优化强化学习代理
`rltrpoagent`	信任区域政策优化强化学习代理
`rlsAcagent`	软演员批判性的增强剂

代理选项

`rlqagentoptions`	Q学习代理的选项
`rlsarsaagentoptions`	SARSA代理的选项
`rldqnagentoptions`	DQN代理的选项
`rlpgagentoptions`	PG代理的选项
`RLDDPGAGENTOPTIONS`	DDPG代理的选项
`rltd3agentoptions`	TD3代理的选项
`rlacagentoptions`	交流代理的选项
`rlppoagentoptions`	PPO代理的选项
`rltrpoagentoptions`	TRPO代理的选项
`rlsAcagentOptions`	SAC代理的选项
`RlagentInitializatizationAptions`	初始化强化学习代理的选项

基于模型的策略优化

`rlmbpoagent`	基于模型的政策优化强化学习代理
`rlmbpoagentoptions`	MBPO代理的选项

获得演员和批评家

`getactor`	从强化学习者那里获得演员
`GetCritic`	从加强学习者那里获取评论家
`setActor`	加固学习代理人的演员
`setcritic`	设定加强学习者的批评家

采取行动

getAction 给定环境观察的代理商或演员采取行动

经验缓冲

`rlreplaymemory`	重播内存体验缓冲区
`附加`	附加体验以重播内存缓冲区
`样本`	重播记忆缓冲区的示例经历

重置代理或体验缓冲区

`重置`	重置环境，代理，体验缓冲或策略对象

话题

代理基础知识

强化学习者
您可以使用几种标准强化学习算法之一创建代理，也可以定义自己的自定义代理。
使用加固学习设计师创建代理
使用强化学习设计师应用程序进行交互作用或进口代理，用于培训。

代理类型

Q学习代理
创建Q学习代理以进行强化学习。
SARSA代理商
创建用于加固学习的SARSA代理。
深Q网络代理
创建用于增强学习的DQN代理。
政策梯度代理
创建用于强化学习的PG代理。
深层确定性政策梯度代理商
创建用于增强学习的DDPG代理。
双胞胎延迟的深层确定性政策梯度代理商
创建用于增强学习的TD3代理。
演员批评者
创建用于增强学习的AC代理。
近端政策优化代理
创建用于增强学习的PPO代理。
信任区域政策优化代理
创建用于强化学习的TRPO代理。
软演员批评剂
创建用于增强学习的SAC代理。
基于模型的策略优化代理
基于模型的强化学习代理人学习了其环境模型，它可以用来为培训生成其他体验。

定制代理商

创建自定义加强学习代理商
创建使用自定义增强学习算法的代理。