帮助中心帮助中心

万博1manbetx环境

使用Simulink建模强化学习环境动力学万博1manbetx^®模型

在强化学习场景中，环境对代理交互的动态进行建模。环境:

从代理接收操作
输出由环境模型的动态行为产生的观察结果
生成一个奖励来衡量行为对完成任务的贡献程度

您可以使用Simulink模型创建预定义的和定制的环境。万博1manbetx有关更多信息，请参见创建Simul万博1manbetxink强化学习环境．

功能

环境创建

`rlPredefinedEnv`	创建一个预定义的强化学习环境
`rl万博1manbetxSimulinkEnv`	使用实现的动态模型创建强化学习环境万博1manbetx
`createIntegratedEnv`	创建万博1manbetx以参考模型为环境的强化学习模型
`validateEnvironment`	验证自定义强化学习环境
`万博1manbetxSimulinkEnvWithAgent`	强化学习环境，使用动态模型实现万博1manbetx

奖励计算

`generateRewardFunction`	从控制规范中生成奖励函数来训练强化学习代理
`exteriorPenalty`	一个点相对于有界区域的外部惩罚值
`hyperbolicPenalty`	点对有界区域的双曲惩罚值
`barrierPenalty`	点相对于有界区域的对数势垒惩罚值

环境界面

`rlFiniteSetSpec`	为强化学习环境创建离散的动作或观察数据规范
`rlNumericSpec`	为强化学习环境创建持续行动或观察数据规范
`getActionInfo`	从强化学习环境、代理或经验缓冲区获取动作数据规范
`getObservationInfo`	从强化学习环境、agent或经验缓冲区获取观测数据规格
`bus2RLSpec`	的元素创建强化学习数据规范万博1manbetx公共汽车

重置环境

`重置`	重置环境、代理、经验缓冲区或策略对象
`设置`	设置强化学习环境或初始化数据记录器对象
`清理`	清理强化学习环境或数据记录器对象

块

强化学习剂

主题

创建Simul万博1manbetxink强化学习环境
使用与代理交互的Simulink模型建模环境动态，生成响应代理动作的奖万博1manbetx励和观察结果。
为强化学习设计万博1manbetx器创建Simulink环境
导入自定义Simulink环境或万博1manbetx创建预定义Simulink环境。
定义奖励信号
创造一个奖励信号来衡量代理在实现目标时的成功程度。
加载预定义的Simulink环境万博1manbetx
加载预定义的Simulink控制万博1manbetx系统环境。
水箱强化学习环境模型
创建一个强化学习Simulink环境，其中包含一个RL Agen万博1manbetxt块，以代替水箱中水位的控制器。