主要内容

万博1manbetx环境

使用Simulink建模强化学习环境动力学万博1manbetx®模型

在强化学习场景中,环境对代理交互的动态进行建模。环境:

  1. 从代理接收操作

  2. 输出由环境模型的动态行为产生的观察结果

  3. 生成一个奖励来衡量行为对完成任务的贡献程度

您可以使用Simulink模型创建预定义的和定制的环境。万博1manbetx有关更多信息,请参见创建Simul万博1manbetxink强化学习环境

功能

全部展开

rlPredefinedEnv 创建一个预定义的强化学习环境
rl万博1manbetxSimulinkEnv 使用实现的动态模型创建强化学习环境万博1manbetx
createIntegratedEnv 创建万博1manbetx以参考模型为环境的强化学习模型
validateEnvironment 验证自定义强化学习环境
万博1manbetxSimulinkEnvWithAgent 强化学习环境,使用动态模型实现万博1manbetx
generateRewardFunction 从控制规范中生成奖励函数来训练强化学习代理
exteriorPenalty 一个点相对于有界区域的外部惩罚值
hyperbolicPenalty 点对有界区域的双曲惩罚值
barrierPenalty 点相对于有界区域的对数势垒惩罚值
rlFiniteSetSpec 为强化学习环境创建离散的动作或观察数据规范
rlNumericSpec 为强化学习环境创建持续行动或观察数据规范
getActionInfo 从强化学习环境、代理或经验缓冲区获取动作数据规范
getObservationInfo 从强化学习环境、agent或经验缓冲区获取观测数据规格
bus2RLSpec 的元素创建强化学习数据规范万博1manbetx公共汽车
重置 重置环境、代理、经验缓冲区或策略对象
设置 设置强化学习环境或初始化数据记录器对象
清理 清理强化学习环境或数据记录器对象

RL代理 强化学习剂

主题