主要内容

MATLAB环境

使用MATLAB模型强化学习环境动力学®

在强化学习的情况下,环境模型的动态代理进行交互。环境:

  1. 从代理接收行为

  2. 造成输出观测环境的动态行为模型

  3. 生成一个奖励测量的行动有助于实现这一任务

您可以创建预定义和自定义在MATLAB环境中。有关更多信息,请参见创建MATLAB强化学习环境

功能

全部展开

rlPredefinedEnv 创建一个预定义的强化学习的环境
rlFunctionEnv 指定自定义使用功能强化学习环境动力学
rlCreateEnvTemplate 创建自定义模板强化学习环境
rlMDPEnv 为强化学习创造马尔可夫决策过程的环境
createMDP 创建马尔可夫决策过程模型
createGridWorld 创建一个二维网格世界强化学习
validateEnvironment 验证自定义强化学习环境
generateRewardFunction 生成一个奖励函数控制规范训练强化学习代理
exteriorPenalty 外部惩罚值对一个有界区域
hyperbolicPenalty 双曲惩罚值对一个有界区域
barrierPenalty 对数障碍罚值对一个有界区域
rlNeuralNetworkEnvironment 环境模型与深层神经网络过渡的模型
rlContinuousDeterministicTransitionFunction 确定性转换函数近似者对象的神经网络环境
rlContinuousGaussianTransitionFunction 随机高斯转换函数近似者对象的神经网络环境
rlContinuousDeterministicRewardFunction 确定的奖励函数近似者对象的神经网络环境
rlContinuousGaussianRewardFunction 随机高斯函数近似者奖励对象为神经网络的环境
rlIsDoneFunction 完成函数近似者对象的神经网络环境
预测 下观察,预测下一个奖励,或事件终止给定的输入数据观察和行动
评估 评估函数近似者对象给定的观察(或observation-action)输入数据
加速 选择加速计算梯度的近似者对象基于神经网络
rlFiniteSetSpec 创建离散行动或观测数据规范强化学习环境
rlNumericSpec 创建持续的行动或观测数据规范强化学习环境
getActionInfo 从强化学习环境,获得行动数据规范代理或经验缓冲区
getObservationInfo 从强化学习环境,获得观测数据规范代理或经验缓冲区
重置 重置环境、代理经验缓冲区,或政策对象
设置 建立强化学习环境或初始化数据日志记录器对象
清理 清理强化学习环境或数据记录器对象

主题