增强学习代理- MATLAB和Simulink万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

强化学习代理

强化学习的目标是训练agent在不确定的环境中完成任务。代理从环境接收观察和奖励，并向环境发送操作。奖励是衡量一项行动在完成任务目标方面的成功程度。

该代理包含两个组件:策略和学习算法。

根据学习算法，代理维护一个或多个参数化函数逼近器来训练策略。函数逼近器有两种类型。

有关创建actor和批评家函数逼近器的更多信息，请参见创建策略和值函数表示。

Reinforcement Learning Toolbox™软件提供了以下内置的agent。每个agent都可以在具有连续或离散的观察空间和以下动作空间的环境中进行训练。

您还可以通过创建自定义代理来使用其他学习算法来培训策略。为此，需要创建一个定制代理类的子类，使用一组必需和可选方法定义代理行为。有关更多信息，请参见自定义代理。