强化学习

深度强化学习是机器学习的一个分支,它使你能够为复杂系统(如机器人和自主系统)实现控制器和决策系统。深度强化学习允许您实现深度神经网络,通过使用从模拟模型动态生成的数据对其进行训练,从而学习复杂的行为。它不需要预先定义的训练数据集,标记或未标记,您所需要的只是一个模拟模型,它表示您正在与之交互并试图控制的环境。

使用MATLAB®,S万博1manbetximulink的®,强化学习工具箱您可以通过完整的工作流程工作,设计和部署决策系统。您可以:

  • ,开始使用的示例简单的控制系统,自治系统和机器人强化学习
  • 快速切换、评估和比较流行的增强学习算法,只需少量代码更改
  • 使用深度神经网络定义复杂的基于图像、视频和传感器数据的强化学习策略
  • 火车政策通过使用本地内核或云并行运行多个仿真快
  • 部署强化学习控制器的嵌入式设备

强化学习代理

强化学习剂由政策的,它执行从输入状态的映射到输出动作和负责更新该策略的算法。深Q-网络,演员,评论家,和深确定性的政策梯度算法最典型的例子。该算法更新,使其最大限度地被环境所提供的长期回报信号的政策。

策略可以由深度神经网络、多项式和查找表表示。然后可以将内置代理和定制代理作为MATLAB对象或Simulink块实现。万博1manbetx

学到更多

在MATLAB和Simulink中进行环境建模万博1manbetx

与强化学习算法训练是一个动态的过程,与周围的环境中的代理进行交互。对于应用程序如机器人和自治系统,与实际的硬件执行在现实世界中这种训练可以是昂贵的和危险的。这就是为什么产生通过模拟数据环境的虚拟模型是非常优选为强化学习。

你可以建立自己的MATLAB和Simulink环境描述系统的动态,它们是如何由代理采取的行动的影响和奖励,用于评万博1manbetx估行动的善良进行的典范。这些模型在本质上可以连续或不连续,可以在逼真度的不同级别代表了您的系统。此外,您可以并行模拟加速训练。在某些情况下,你可以重用你的系统中现有的MATLAB和Simulink模型强化学习以最小的改动。万博1manbetx

学到更多

示例和参考应用程序

通过对倒立摆的平衡、网格世界问题的导航和杆系统的平衡等问题实现控制器,开始强化学习。你也可以为自动驾驶车辆设计自适应巡航控制和车道保持辅助系统。强化学习也可以用于机器人的应用,如轨迹规划和教学行为,如运动。

学到更多