在强化学习场景中,环境对agent交互的动力学进行建模。环境:
从代理接收操作
输出由环境模型的动态行为产生的观察结果
产生奖励,衡量行动对完成任务的贡献程度
您可以在MATLAB中创建预定义和自定义环境。有关更多信息,请参阅创建MATLAB强化学习环境.
使用与agent交互的MATLAB对象对环境动力学进行建模,生成对agent操作的回报和观察结果。
导入自定义环境或创建预定义环境。
创建一个奖励信号,用于衡量代理在实现其目标方面的成功程度。
您可以在预定义的MATLAB控制系统环境中培训代理,这些环境中已经定义了操作、观察、奖励和动态。
您可以在预定义的MATLAB网格世界环境中培训代理,这些环境中已经定义了操作、观察和奖励。
您可以通过定义自己的大小、奖励和障碍来创建自定义的MATLAB网格世界环境。
通过提供自定义动态功能创建强化学习环境。
可以通过创建和修改模板环境对象来定义自定义强化学习环境。