主要内容

开始使用强化学习工具箱

利用强化学习设计和培训政策

强化学习工具箱™提供了一个应用程序、函数和模型万博1manbetx®块培训政策使用强化学习算法,包括DQN、PPO、囊,DDPG。你可以用这些策略来实现控制器和决策算法对于复杂的应用,如资源分配,机器人技术,和自治系统。

工具箱可以代表政策和价值函数使用深层神经网络或查找表和培训他们通过与环境的交互作用在MATLAB建模®或仿真万博1manbetx软件。你可以评估多智能体强化学习算法单一或工具箱中提供或开发自己的。你可以尝试hyperparameter设置、监控培训进展,和模拟训练有素的特工通过交互式应用程序或通过编程的方式。改善训练性能,模拟可以并行运行在多个cpu, gpu,计算机集群和云(与并行计算工具箱™MATLAB并行服务器™)。

通过ONNX™模型格式,现有政策可以从深度学习框架,如进口TensorFlow™Keras和PyTorch(深度学习工具箱™)。您可以生成优化的C, c++, CUDA®微控制器代码部署培训政策和gpu。工具箱包括引用的例子来帮助你开始。

教程

关于强化学习

交互式学习

强化学习的斜坡弯道评估你是否成功完成给定的任务。

强化学习斜坡弯道
这个免费,4小时教程提供了一个互动介绍强化学习。