强化学习工具箱

使用强化学习设计和培训策略

Reinforcement Learning Toolbox™为使用DQN、A2C、DDPG等增强学习算法的训练策略提供函数和块。您可以使用这些策略来实现复杂系统(如机器人和自主系统)的控制器和决策算法。您可以使用深度神经网络、多项式或查找表来实现策略。

该工具箱使您可以通过使他们能够与MATLAB代表环境之间互动培训政策®或者S万博1manbetximulink的®模型。您可以评估算法、试验超参数设置和监视训练进度。为了提高训练性能,您可以在云、计算机集群和gpu上并行运行模拟(使用并行计算工具箱™和MATLAB并行服务器™)。

通过ONNX™模型格式,可以从TensorFlow™Keras和PyTorch(使用deep learning Toolbox™)等深度学习框架导入现有的策略。您可以生成优化的C、c++和CUDA代码,以便在微控制器和gpu上部署经过培训的策略。

工具箱包括使用强化学习为机器人和自动驾驶应用程序设计控制器的参考示例。

入门:

强化学习代理

实现MATLAB和Simulink代理商通万博1manbetx过深层神经网络为代表的火车政策。使用内置的和自定义的强化学习算法。

强化学习算法

使用Deep Q-Network (DQN)实现agent,优点演员评论家(A2C)、深度确定策略梯度(Deep Policy Gradients, DDPG)和其他内置算法。使用模板实现培训策略的自定义代理。

代理包括策略和算法。

政策和值函数表示使用Deep神经网络

对具有大状态动作空间的复杂系统使用深度神经网络策略。使用“深度学习工具箱”中的网络和体系结构定义策略。导入ONNX模型,用于与其他深度学习框架的互操作性。

万博1manbetx代理的Simulink块

实施和Simulink中的火车强化学习代理商。万博1manbetx

强化学习代理块Simulink的。万博1manbetx

环境建模

创建MATLAB和Simulink环万博1manbetx境模型。描述系统动力学,为训练代理提供观察和奖励信号。

万博1manbetxSimulink和的Simscape环境

使用Si万博1manbetxmulink和的Simscape™模型来表示的环境。指定观察,操作,以及模型中奖励的信号。

万博1manbetxSimulink环境模型的倒立摆。

MATLAB环境

使用MATLAB函数和类来表示环境。在MATLAB文件中指定观察、动作和奖励变量。

对于车极系统MATLAB环境。

加快培训

使用GPU、云和分布式计算资源加速培训。

分布式计算和多核加速

通过在多核计算机、云资源或使用并行计算工具箱和的计算集群上运行并行模拟来加速培训MATLAB并行服务器

使用并行计算加速培训。

GPU加速

加快深层神经网络训练和推理高性能的NVIDIA®图形处理器。使用MATLAB与并行计算工具箱最CUDA®-启用的NVIDIA gpu有计算能力3.0或更高

使用gpu加速训练。

代码生成和部署

部署训练有素的政策,以嵌入式设备或它们具有广泛的生产系统的集成。

代码生成

使用GPU编码器™用MATLAB代码表示经过训练的策略,生成优化的CUDA代码。使用MATLAB编码器™来生成C / C ++代码部署策略。

产生GPU使用CUDA编码器的代码。

MATLAB编译器支持万博1manbetx

使用MATLAB编译器™MATLAB编译SDK™部署训练有素的政策C / C ++共享库,微软®net程序集,Java®类和Python®包。

包装和共享政策,独立的程序。

参考示例

设计采用机器人强化学习,自动驾驶汽车,和其他系统控制器。

入门

对倒立摆的平衡、网格世界的导航、杆系的平衡等问题实施基于强化学习的控制器。

自动驾驶的应用程序

为自适应巡航控制和车道保持辅助系统设计控制器。

训练车道保持辅助系统。

利用强化学习训练机器人行走。

观看本系列的视频来学习强化学习

有问题吗?

联系Emmanouil Tzorakoleftherakis,强化学习工具箱技术专家

最新功能

PPO代理

使用近似策略优化算法来训练策略,以提高训练稳定性

并行仿真代理

通过运行多个并行代理仿真验证的培训政策

参考示例

火车强化学习的机器人和控制设计应用程序的策略

看到发布说明对任何这些特征和对应的功能的详细说明。