加固学习工具箱

使用强化学习设计和培训政策

强化学习工具箱™提供了使用加强学习算法的培训策略的功能和块,包括DQN,A2C和DDPG。您可以使用这些策略来实现用于机器人和自主系统等复杂系统的控制器和决策算法。您可以使用深神经网络,多项式或查找表来实施策略。

Toolbox允许您通过启用它们与Matlab所代表的环境进行交互来培训策略®或者模万博1manbetx拟®模型。您可以评估算法,使用HyperParameter设置进行实验,并监控培训进度。为了提高培训性能,您可以在云,计算机集群和GPU上并行运行模拟(使用并行计算工具箱™和MATLAB并行服务器™)。

通过Onnx™模型格式,现有的策略可以从DENE学习框架导入Tensorflow™Keras和Pytorch(具有深度学习工具箱™)。您可以生成优化的C,C ++和CUDA代码,以在微控制器和GPU上部署培训的策略。

该工具箱包括使用加强学习的参考示例,用于设计用于机器人和自动化驾驶应用的控制器。

入门

了解加强学习工具箱的基础知识

Matlab环境

模型加固学习环境动态使用MATLAB

万博1manbetxSimulink环境

使用Simulink模型的模型增强学习环境动态万博1manbetx

政策和价值函数

定义策略和值函数表示,例如深神经网络和Q表

代理人

使用普通算法创建和配置强化学习代理,例如Sarsa,DQN,DDPG和A2C

培训和验证

火车和模拟强化学习代理

政策部署

代码生成和部署训练有素的策略