在强化学习场景中,环境建模与代理交互的动态。环境:
从代理接收动作
输出来自环境模型动态行为的观察结果
产生奖励,衡量行动对完成任务的贡献程度
您可以在MATLAB中创建预定义和自定义环境。有关更多信息,请参阅创建MATLAB强化学习环境.
使用与代理交互的MATLAB对象对环境动力学进行建模,生成响应代理行为的奖励和观察。
导入自定义环境或创建预定义环境。
创造一个奖励信号来衡量代理人实现目标的成功程度。
您可以在预定义的MATLAB控制系统环境中训练代理,其中的动作、观察、奖励和动态已经定义。
您可以在预定义的MATLAB网格世界环境中训练代理,其中的动作、观察和奖励已经定义。
您可以通过定义自己的大小、奖励和障碍来创建自定义的MATLAB网格世界环境。
通过提供定制的动态功能来创建强化学习环境。
通过创建和修改模板环境对象,可以自定义强化学习环境。