加固学习工具箱

重大更新

加固学习工具箱

使用强化学习设计和培训政策

下载免费试用

查看定价

强化学习工具箱™提供了应用程序，功能和模拟链接万博1manbetx^®使用强化学习算法的培训政策阻止，包括DQN，PPO，SAC和DDPG。您可以使用这些策略来实现用于复杂应用程序的控制器和决策算法，例如资源分配，机器人和自主系统。

工具箱允许您使用深神经网络或查找表来表示策略和值函数，并通过与Matlab中建模的环境的交互培训^®或者是万博1manbetxsimulink。您可以评估工具箱中提供的单个或多代理强化学习算法或开发您自己的学习算法。您可以通过应用程序或以编程方式进行高度参数设置，监视培训进度，并模拟培训的代理。为了提高培训性能，可以在多个CPU，GPU，计算机集群和云上并行运行模拟（使用并行计算工具箱™和MATLABPrild Server™）。

通过Onnx™模型格式，现有的策略可以从DENE学习框架导入Tensorflow™Keras和Pytorch（具有深度学习工具箱™）。您可以生成优化的C，C ++和CUDA^®用于部署微控制器和GPU的培训策略的代码。工具箱包含参考示例，以帮助您开始。

开始：

什么是加强学习工具箱？

免费电子书

用Matlab和Simulink加强学习万博1manbetx

读电子书

加固学习代理人

创建和配置强化学习代理以培训Matlab和Simulink的策略。万博1manbetx使用内置或开发自定义强化学习算法。

强化学习算法

使用Deep Q-Network（DQN），深度确定性政策梯度（DDPG），近端策略优化（PPO）以及其他内置算法创建代理。使用模板开发自定义代理以获取培训策略。

火车加固学习代理

内置代理商

创建自定义代理

训练一个双人的机器人走路

钢筋学习工具箱中提供的培训算法。

钢筋学习设计师应用程序

交互设计，火车和模拟强化学习代理。将培训的代理商到MATLAB进一步使用和部署。

加固学习设计师

使用钢筋学习设计师APP的设计和火车代理

以交互式创建和培训加固学习代理

使用深神经网络的策略和价值函数表示

对于具有大状态行动空间的复杂系统，使用从图层以编程方式定义深度神经网络策略深度学习工具箱，或交互方式深网络设计师。或者，使用工具箱建议的默认网络架构。使用模仿学习初始化策略来加速培训。与其他深度学习框架的互操作性导入和导出ONNX模型。

创建和导入深度神经网络表示

使用深网络设计器创建代理

用模仿学习初始化DDPG Actor网络

初始化强化学习代理的选项

交互式构建，可视化和编辑深度学习网络

Simulink中的单次和多智能体增强学习万博1manbetx

使用RL代理块在Simulink中创建和培训加固学习代理。万博1manbetx使用RL代理程序块的多个实例同时列车在Simulink中同时（多代理强化学习）。万博1manbetx

创建一个Simul万博1manbetxink环境并培训代理

RL代理Simul万博1manbetxink块

火车用于区域覆盖的多个代理

培训多个代理以进行控制后路径

Simulink的加强学习代理块。万博1manbetx

环境建模

创建MATLAB和SIMULINK环万博1manbetx境模型。描述系统动态，并为培训代理提供观察和奖励信号。

万博1manbetxSimulink和Simscape环境

使用Si万博1manbetxmulink和Simscape™来创建环境的模型。指定模型中的观察，动作和奖励信号。

为强化学习创建万博1manbetxSimulink环境

加载预定义的Simulink环境万博1manbetx

将第三方功能集成到Simulink中万博1manbetx

钢筋电磁同步电动机面向现场控制的加固学习（6:12）

万博1manbetx用于Biped机器人的Simulink环境模型。

Matlab环境

使用MATLAB函数和类来模拟环境。在MATLAB文件中指定观察，操作和奖励变量。

为加强学习创建Matlab环境

加载预定义的MATLAB环境

将第三方功能集成到Matlab中

钢笔学习（4:15）

Matlab环境为三程度的火箭。

加速培训

使用GPU，云和分布式计算资源加快培训。

分布式计算和多核加速度

通过在多核计算机，云资源或计算群集上运行并行模拟来加速培训并行计算工具箱和MATLAB并行服务器。

使用并行计算的火车代理

培训加固学习代理的选项

火车使用并行计算将AC代理平衡MATLAB中的卡车杆系统

使用并行计算的Simulink培训DQN Agent in Simulink万博1manbetx

使用并行计算加快培训。

GPU加速

高性能NVIDIA加快深度神经网络培训和推论^®GPU。使用matlab并行计算工具箱和最支持的CUDA启用的NVIDIA GPU计算能力3.0或更高。

使用GPU的火车代理

强化学习代理商的选项

使用GPU加速培训。

代码生成和部署

将培训的策略部署到嵌入式设备或将它们与各种生产系统集成。

代码生成

采用GPU编码器™从Matlab代码生成优化的CUDA代码，代表培训的策略。采用Matlab Coder™生成C / C ++代码以部署策略。

部署培训的强化学习政策

使用GPU编码器生成CUDA代码。

Matlab编译器支持万博1manbetx

采用Matlab Compiler™和MATLAB编译器SDK™将培训的策略部署为独立应用程序，C / C ++共享库，Microsoft^®.NET装配，Java^®课程和python^®包裹。

包装和分享单独计划的政策。

参考例子

用于机器人，自动化驾驶，校准，调度和其他应用的设计控制器和决策算法。

入门

了解如何为反转简单的摆锤，导航网格世界，平衡推车杆系统以及解决通用马尔可夫决策过程等问题开发强化学习策略。

培训DQN代理以平衡推车系统

训练一个Q学习代理解决网格世界问题

在MDP环境中培训钢筋学习代理

加强学习动力总成控制工程师的动机（21:26）

用图像数据的倒立摆的加固学习

自动驾驶

设计加强学习政策，自动驾驶应用，如自适应巡航控制，车道保持援助和自动停车。

培训DDPG用于自适应巡航控制的代理

培训DQN Agent for Lane保持辅助

列车DDPG代理用于路径跟踪控制

培训自动停车剂的PPO代理

展开钢筋学习促进经典控制设计的视角

机器人

机器人应用设计加固学习政策。

使用DDPG代理的四足机器人机器人

步行机器人的深增强学习（15:52）

Matlab石油和天然气会议2019：AI的加固学习工作流程（21:38）

如何训练你的机器人（带有深厚的加强学习）（37:08）

使用机器人操纵器的球平衡的加固学习

调整，校准和调度

设计强化学习策略，用于调整，校准和调度应用程序。

配水系统调度

使用强化学习调整PI控制器

水分布资源分配问题。

产品资源：

文件功能块技术文章用户故事产品要求发行说明视频和网络研讨会例子

加强学习视频系列

观看本系列中的视频，了解有关强化学习的更多信息。

看视频（5个视频）

获得免费试用

在你的指尖探索30天。

现在下载

不知道从哪里开始？

如您需要帮忙，请联系我们。

请求报价联系销售

有问题吗？

联系钢筋学习工具箱技术团队。