开始使用强化学习工具箱

利用强化学习设计和培训政策

强化学习工具箱™提供了一个应用程序、函数和模型万博1manbetx^®块培训政策使用强化学习算法,包括DQN、PPO、囊,DDPG。你可以用这些策略来实现控制器和决策算法对于复杂的应用,如资源分配,机器人技术,和自治系统。

工具箱可以代表政策和价值函数使用深层神经网络或查找表和培训他们通过与环境的交互作用在MATLAB建模^®或仿真万博1manbetx软件。你可以评估多智能体强化学习算法单一或工具箱中提供或开发自己的。你可以尝试hyperparameter设置、监控培训进展,和模拟训练有素的特工通过交互式应用程序或通过编程的方式。改善训练性能,模拟可以并行运行在多个cpu, gpu,计算机集群和云(与并行计算工具箱™MATLAB并行服务器™)。

通过ONNX™模型格式,现有政策可以从深度学习框架,如进口TensorFlow™Keras和PyTorch(深度学习工具箱™)。您可以生成优化的C, c++, CUDA^®微控制器代码部署培训政策和gpu。工具箱包括引用的例子来帮助你开始。

教程

MDP环境中训练强化学习代理
训练强化学习代理在一个通用的马尔可夫决策过程的环境。
强化学习培训代理基本网格的世界
火车q学习和撒尔沙代理在MATLAB解决网格世界。
创建仿真软件环万博1manbetx境和培训代理
火车一个控制器使用强化学习和植物建模仿真软件的培训环境。万博1manbetx
设计和使用强化学习培训代理设计师
设计和训练DQN代理cart-pole系统使用强化学习设计应用程序。

关于强化学习

强化学习是什么?
强化学习是一种目标导向的计算方法在计算机学会执行任务与一个不确定的动态环境中交互。
控制系统应用程序的强化学习
你可以训练强化学习代理控制一株不知名的植物。

交互式学习

强化学习斜坡弯道
这个免费,4小时教程提供了一个互动介绍强化学习。