帮助中心帮助中心

MATLAB环境

使用MATLAB模型强化学习环境动力学^®

在强化学习的情况下,环境模型的动态代理进行交互。环境:

从代理接收行为
造成输出观测环境的动态行为模型
生成一个奖励测量的行动有助于实现这一任务

您可以创建预定义和自定义在MATLAB环境中。有关更多信息,请参见创建MATLAB强化学习环境。

功能

环境创建

`rlPredefinedEnv`	创建一个预定义的强化学习的环境
`rlFunctionEnv`	指定自定义使用功能强化学习环境动力学
`rlCreateEnvTemplate`	创建自定义模板强化学习环境
`rlMDPEnv`	为强化学习创造马尔可夫决策过程的环境
`createMDP`	创建马尔可夫决策过程模型
`createGridWorld`	创建一个二维网格世界强化学习
`validateEnvironment`	验证自定义强化学习环境

奖励计算

`generateRewardFunction`	生成一个奖励函数控制规范训练强化学习代理
`exteriorPenalty`	外部惩罚值对一个有界区域
`hyperbolicPenalty`	双曲惩罚值对一个有界区域
`barrierPenalty`	对数障碍罚值对一个有界区域

神经网络环境

`rlNeuralNetworkEnvironment`	环境模型与深层神经网络过渡的模型
`rlContinuousDeterministicTransitionFunction`	确定性转换函数近似者对象的神经网络环境
`rlContinuousGaussianTransitionFunction`	随机高斯转换函数近似者对象的神经网络环境
`rlContinuousDeterministicRewardFunction`	确定的奖励函数近似者对象的神经网络环境
`rlContinuousGaussianRewardFunction`	随机高斯函数近似者奖励对象为神经网络的环境
`rlIsDoneFunction`	完成函数近似者对象的神经网络环境
`预测`	下观察,预测下一个奖励,或事件终止给定的输入数据观察和行动
`评估`	评估函数近似者对象给定的观察(或observation-action)输入数据
`加速`	选择加速计算梯度的近似者对象基于神经网络

环境界面

`rlFiniteSetSpec`	创建离散行动或观测数据规范强化学习环境
`rlNumericSpec`	创建持续的行动或观测数据规范强化学习环境
`getActionInfo`	从强化学习环境,获得行动数据规范代理或经验缓冲区
`getObservationInfo`	从强化学习环境,获得观测数据规范代理或经验缓冲区

重置环境

`重置`	重置环境、代理经验缓冲区,或政策对象
`设置`	建立强化学习环境或初始化数据日志记录器对象
`清理`	清理强化学习环境或数据记录器对象

主题

创建MATLAB强化学习环境
使用MATLAB环境动力学模型与代理交互的对象,产生回报和观察代理人的行为的反应。
创建或导入MATLAB环境强化学习设计师
导入一个定制的MATLAB环境或创造一个预定义的MATLAB环境。
定义奖励信号
创建一个奖励的信号,衡量成功的代理是在实现其目标。
负载预定义的控制系统环境
负载预定义的MATLAB控制系统环境。
网格负载预定义的世界环境
火车代理世界上预定义的MATLAB网格环境的操作,观察,和奖励已经定义。
创建自定义网格的世界环境
创建自定义网格MATLAB世界环境通过定义自己的大小,奖励和障碍。
创建MATLAB环境中使用自定义函数
创建一个强化学习环境提供定制的动态功能。
从模板创建定制的MATLAB环境
定义一个自定义强化学习环境通过创建和修改模板环境对象。