加强学习

深度加强学习是机器学习的分支,使您能够为机器人和自主系统等复杂系统实现控制器和决策系统。深度加强学习让您实现深度神经网络,可以通过使用仿真模型动态生成的数据来学习复杂行为。它不需要预定义的训练数据集,标记或未标记,您需要的只是一个模拟模型,它代表您与之交​​互并尝试控制的环境。

使用matlab.®,S万博1manbetximulink.®, 和强化学习工具箱™您可以通过完整的工作流程来设计和部署决策系统。你可以:

  • 使用简单控制系统,自主系统和机器人的示例使用钢筋学习
  • 仅通过轻微的代码更改快速切换,评估和比较流行的强化学习算法
  • 使用深神经网络根据图像,视频和传感器数据定义复杂的加固学习策略
  • 通过使用本地核心或云运行多次模拟来驾驶多次模拟速度更快
  • 将强化学习控制器部署到嵌入式设备

加固学习代理人

增强学习代理由策略组成,该策略从输入状态执行映射到输出动作和负责更新此策略的算法。深度Q-Networks,演员 - 评论家和深度确定性政策梯度是算法的流行示例。该算法更新策略,使得它最大化环境提供的长期奖励信号。

政策可以由深神经网络,多项式和查找表来表示。然后,您可以将内置和自定义代理实现为Matlab对象或Simulink块。万博1manbetx

了解更多

Matlab和Simulink中的环境建模万博1manbetx

使用加固学习算法的培训是一种动态过程,因为代理与周围的环境交互。对于机器人和自主系统等应用,在具有实际硬件的现实世界中执行此培训可能是昂贵和危险的。这就是为什么通过模拟产生数据的环境的虚拟模型对于加强学习非常胜利。

您可以在Matlab和Simulink中构建您的环境模型,该模拟描述系统动态,它们如何受代理所采取的行动的影响,万博1manbetx以及评估所执行行动的良好的奖励。这些模型本质上可以是连续的或离散的,并且可以在不同程度的保真度下代表您的系统。此外,您可以将模拟并行化以加速培训。在某些情况下,您可以通过最小的修改重复使用系统的现有MATLAB和SIMULINK模型来加强学习。万博1manbetx

了解更多

示例和参考应用

通过实施控制器的解决方案来开始加强学习,例如平衡倒立的摆锤,导航网格世界问题,平衡推车系统。您还可以为自动车辆进行自适应巡航控制和车道保持辅助设计系统。增强学习也可用于机器人应用,例如轨迹规划,以及机置等教学行为。

了解更多