主要内容

万博1manbetx环境

使用仿真软件模型强化学习环境动力学万博1manbetx®模型

在强化学习的情况下,环境模型的动态代理进行交互。环境:

  1. 从代理接收行为

  2. 造成输出观测环境的动态行为模型

  3. 生成一个奖励测量的行动有助于实现这一任务

您可以创建预定义和自定义环境使用仿真软件模型。万博1manbetx有关更多信息,请参见创建模型强化学万博1manbetx习环境

功能

全部展开

rlPredefinedEnv 创建一个预定义的强化学习的环境
rl万博1manbetxSimulinkEnv 创建使用动态模型中实现强化学习环境万博1manbetx
createIntegratedEnv 创建万博1manbetx为强化学习模型,利用参考模型的环境
validateEnvironment 验证自定义强化学习环境
万博1manbetxSimulinkEnvWithAgent 强化学习环境中实现动态模型万博1manbetx
generateRewardFunction 生成一个奖励函数控制规范训练强化学习代理
exteriorPenalty 外部惩罚值对一个有界区域
hyperbolicPenalty 双曲惩罚值对一个有界区域
barrierPenalty 对数障碍罚值对一个有界区域
rlFiniteSetSpec 创建离散行动或观测数据规范强化学习环境
rlNumericSpec 创建持续的行动或观测数据规范强化学习环境
getActionInfo 从强化学习环境,获得行动数据规范代理或经验缓冲区
getObservationInfo 从强化学习环境,获得观测数据规范代理或经验缓冲区
bus2RLSpec 创建强化学习数据规范的元素万博1manbetx公共汽车
重置 重置环境、代理经验缓冲区,或政策对象
设置 建立强化学习环境或初始化数据日志记录器对象
清理 清理强化学习环境或数据记录器对象

RL代理 强化学习代理

主题