强化学习工具箱
使用强化学习设计和培训策略
Reinforcement Learning Toolbox™为使用DQN、A2C、DDPG等增强学习算法的训练策略提供函数和块。您可以使用这些策略来实现复杂系统(如机器人和自主系统)的控制器和决策算法。您可以使用深度神经网络、多项式或查找表来实现策略。
该工具箱使您可以通过使他们能够与MATLAB代表环境之间互动培训政策®或者S万博1manbetximulink的®模型。您可以评估算法、试验超参数设置和监视训练进度。为了提高训练性能,您可以在云、计算机集群和gpu上并行运行模拟(使用并行计算工具箱™和MATLAB并行服务器™)。
通过ONNX™模型格式,可以从TensorFlow™Keras和PyTorch(使用deep learning Toolbox™)等深度学习框架导入现有的策略。您可以生成优化的C、c++和CUDA代码,以便在微控制器和gpu上部署经过培训的策略。
工具箱包括使用强化学习为机器人和自动驾驶应用程序设计控制器的参考示例。
入门:
强化学习算法
使用Deep Q-Network (DQN)实现agent,优点演员评论家(A2C)、深度确定策略梯度(Deep Policy Gradients, DDPG)和其他内置算法。使用模板实现培训策略的自定义代理。
政策和值函数表示使用Deep神经网络
对具有大状态动作空间的复杂系统使用深度神经网络策略。使用“深度学习工具箱”中的网络和体系结构定义策略。导入ONNX模型,用于与其他深度学习框架的互操作性。
万博1manbetx代理的Simulink块
实施和Simulink中的火车强化学习代理商。万博1manbetx
万博1manbetxSimulink和的Simscape环境
使用Si万博1manbetxmulink和的Simscape™模型来表示的环境。指定观察,操作,以及模型中奖励的信号。
分布式计算和多核加速
通过在多核计算机、云资源或使用并行计算工具箱和的计算集群上运行并行模拟来加速培训MATLAB并行服务器。
GPU加速
加快深层神经网络训练和推理高性能的NVIDIA®图形处理器。使用MATLAB与并行计算工具箱最CUDA®-启用的NVIDIA gpu有计算能力3.0或更高。
代码生成
使用GPU编码器™用MATLAB代码表示经过训练的策略,生成优化的CUDA代码。使用MATLAB编码器™来生成C / C ++代码部署策略。
MATLAB编译器支持万博1manbetx
使用MATLAB编译器™和MATLAB编译SDK™部署训练有素的政策C / C ++共享库,微软®net程序集,Java®类和Python®包。
有问题吗?
联系Emmanouil Tzorakoleftherakis,强化学习工具箱技术专家
PPO代理
使用近似策略优化算法来训练策略,以提高训练稳定性
并行仿真代理
通过运行多个并行代理仿真验证的培训政策
参考示例
火车强化学习的机器人和控制设计应用程序的策略
看到发布说明对任何这些特征和对应的功能的详细说明。