深入强化学习

深入强化学习是机器学习的一个分支,使您可以实现控制器和决策系统等复杂系统的机器人和自治系统。深入强化学习可以让你实现深层神经网络,可以学习复杂的行为通过训练数据动态生成模拟或物理系统。与其他机器学习技术,不需要预定义的训练数据集,标记或标记。通常,你所需要的是一个代表你的环境的仿真模型。

使用MATLAB®,仿万博1manbetx真软件®,强化学习工具箱™你可以通过完整的工作流运行设计和部署一个决策系统。您可以:

  • 开始使用深强化学习使用例子简单的控制系统,自主系统,机器人技术和调度问题
  • 快速切换、评估和比较受欢迎的强化学习算法只有较小的代码更改
  • 模型在MATLAB环境或仿真软件万博1manbetx
  • 使用深层神经网络来定义复杂深刻的强化学习策略基于图像,视频和传感器数据
  • 更快的火车政策运行多个并行模拟使用本地核心或云
  • 深的强化学习策略部署到嵌入式设备
强化学习的图

深入强化学习代理

深入强化学习深神经网络组成的代理政策,地图输入状态输出动作,和一个算法负责更新这一政策。深Q-network (DQN),深决定性策略梯度(DDPG),软演员评论家(囊),和近端政策优化(PPO)流行的算法的例子。算法更新策略的基础上,从环境中收集的观察和回报最大化预期的长期回报。

强化学习工具帮助您创建深度强化学习代理以编程方式,或与强化学习交互设计师应用。从流行的算法选择提供了开箱即用的,或实现自己的自定义算法使用可用的模板和示例。

强化学习的图

了解更多

在MATLAB环境建模和仿真软件万博1manbetx

训练与深度强化学习算法是一个动态的过程,代理与周围的环境相互作用。等应用机器人和自治系统,执行这个培训与实际硬件可以是昂贵和危险的。这就是为什么虚拟环境生成数据模型通过模拟是非常倾向于强化学习。

你可以建立一个模型,在MATLAB和Simulink环境,描述了系统动力学,它们是如何影响的行动代理人,和奖励评万博1manbetx估执行的行动。这些模型可以是连续的或离散的,能代表你的系统在不同程度的忠诚。此外,您可以并行化模拟加速训练。在某些情况下,您可以重用现有的MATLAB和Simulink系统深强化学习模型的修改。万博1manbetx

了解更多

在MATLAB环境建模和仿真软件万博1manbetx

例子和引用的应用程序

开始使用深强化学习培训政策对于简单的问题,如一个倒立摆的平衡,grid-world导航问题,平衡cart-pole系统。你也可以设计自适应巡航控制系统和lane-keeping协助自主车辆。深入强化学习还可以用于机器人应用程序,如轨迹规划、和教学行为,比如运动。

强化学习的图

了解更多