强化学习工具箱

强化学习工具箱

使用强化学习设计和培训政策

开始:

强化学习代理

在MATLAB和Simulink中创建和配置增强学习代理来训练策略。万博1manbetx使用内置或开发自定义强化学习算法。

强化学习算法

使用DQN (deep Q-network)、DDPG (deep deterministic policy gradient)、PPO (proximal policy optimization)等内置算法创建agent。使用模板开发培训策略的自定义代理。

多种训练算法,包括SARSA、SAC、DDPG等。

强化学习工具箱中的训练算法可用。

强化学习设计师App

交互式地设计、训练和模拟强化学习代理。将经过培训的代理导出到MATLAB,以供进一步使用和部署。

使用深度神经网络的策略和值函数表示

对于具有较大状态-动作空间的复杂系统,使用来自的层以编程方式定义深度神经网络策略深度学习工具箱,或与深层网络设计师.或者,使用工具箱建议的默认网络体系结构。使用模仿学习初始化策略以加速训练。导入和导出与其他深度学习框架互操作性的ONNX模型。

Simulink中的单agent和多agent强化学习万博1manbetx

使用RL Agent块在Simulink中创建和训练强化学习Agent。万博1manbetx使用RL Agent块的多个实例,在Simulink中同时训练多个Agent(多Agent强化学习)。万博1manbetx

万博1manbetx具有RL Agent块的Simulink模型。

Simulink的强化学习代理块。万博1manbetx

环境建模

创建MATLAB和Simulink环万博1manbetx境模型。描述系统动态,并为培训代理提供观察和奖励信号。

万博1manbetxSimulink和Simscape环境

使用Si万博1manbetxmulink和Simscape™创建环境的模型。指定模型中的观察、行动和奖励信号。

万博1manbetx一种两足机器人的Simulink环境模型。

万博1manbetx一种两足机器人的Simulink环境模型。

MATLAB环境中

使用MATLAB函数和类来建模一个环境。在MATLAB文件中指定观察、行动和奖励变量。

三自由度火箭的MATLAB环境。

三自由度火箭的MATLAB环境。

加速训练

利用GPU、云和分布式计算资源加速训练。

GPU加速

利用高性能NVIDIA加速深度神经网络训练和推理®gpu。使用MATLAB并行计算工具箱以及大多数支持cuda的NVIDIA gpu计算能力3.0或更高

GPU硬件。

使用gpu加速培训。

代码生成和部署

将训练有素的策略部署到嵌入式设备上,或将它们与各种生产系统集成。

代码生成

使用GPU编码器™从MATLAB代码生成优化的CUDA代码表示训练的策略。使用MATLAB编码器™生成C/ c++代码来部署策略。

GPU编码器配置界面。

使用GPU编码器生成CUDA代码。

MATLAB编译器支持万博1manbetx

使用MATLAB编译器™MATLAB编译器SDK™将训练有素的策略部署为独立的应用程序,C/ c++共享库,微软®net程序集,Java®Python类,®包。

用于创建独立应用程序的MATLAB编译器屏幕。

将策略打包和共享为独立的程序。

参考例子

为机器人、自动驾驶、校准、调度和其他应用设计控制器和决策算法。

调优、校准和调度

为调优、校准和调度应用程序设计强化学习策略。

有三个泵、蓄水池和水箱的配水系统。

水资源分配的资源分配问题。

强化学习系列影片

强化学习系列影片

观看本系列的视频,了解更多关于强化学习的知识。