文档

强化学习工具箱

利用强化学习设计和培训政策

强化学习工具箱™提供功能和块培训政策使用强化学习算法包括DQN, A2C和DDPG。您可以使用这些政策,实现了复杂系统的控制器和决策算法,如机器人和自治系统。你可以使用深层神经网络实现的政策,多项式,或查找表。

工具箱可以培训政策,使他们能够与环境由MATLAB交互®或仿真万博1manbetx软件®模型。你可以评估算法,实验hyperparameter设置,并监控培训的进展。改善训练性能,您可以运行在并行模拟云,计算机集群,gpu(与并行计算工具箱™MATLAB并行服务器™)。

通过ONNX™模型格式,现有政策可以从深度学习框架,如进口TensorFlow™Keras和PyTorch(深度学习工具箱™)。您可以生成优化的C, c++, CUDA代码部署培训政策微控制器和gpu。

工具箱包括参考示例利用强化学习设计控制器对机器人和自动驾驶的应用程序。

开始

学习基本的强化学习工具

MATLAB环境中

使用MATLAB模型强化学习环境动力学

万博1manbetx仿真软件环境

利用仿真软件模型模型强化学习环境动力学万博1manbetx

政策和价值函数

定义策略和价值函数表征,如深层神经网络和Q表

代理

创建和配置强化学习代理使用常见的算法,如撒尔沙,DQN DDPG, A2C

培训和验证

培训和模拟强化学习代理

政策部署

代码生成和部署培训政策