强化学习- MATLAB和Simulink万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

加强学习

深度强化学习是机器学习的一个分支，它使您能够为复杂系统(如机器人和自主系统)实现控制器和决策系统。深度强化学习让您实现深度神经网络，可以通过使用仿真模型动态生成的数据来训练它们，从而学习复杂的行为。它不需要一个预定义的训练数据集，无论标记或未标记，您所需要的是一个模拟模型，该模型表示您正在与之交互并试图控制的环境。

使用matlab.^®，s万博1manbetximulink.^®,强化学习工具箱™您可以通过完整的工作流程来设计和部署决策系统。你可以：

使用简单控制系统，自主系统和机器人的示例使用钢筋学习
快速切换、评估和比较流行的强化学习算法，只需要少量的代码更改
使用深度神经网络定义基于图像、视频和传感器数据的复杂强化学习策略
通过使用本地核心或云运行多次模拟来驾驶多次模拟速度更快
将强化学习控制器部署到嵌入式设备

加固学习代理人

增强学习代理由策略组成，该策略从输入状态执行映射到输出动作和负责更新此策略的算法。深度Q-Networks，演员 - 评论家和深度确定性政策梯度是算法的流行示例。该算法更新策略，使得它最大化环境提供的长期奖励信号。

策略可以用深度神经网络、多项式和查找表来表示。然后，您可以实现内置的和自定义代理作为MATLAB对象或Simulink块。万博1manbetx

了解更多

在MATLAB中定义强化学习代理- 文件
基于深度神经网络的MATLAB策略表示- 文件
在Simulink中训练DDPG Agent控制水箱系统万博1manbetx- 例子
用图像数据的倒立摆的加固学习(5:04)- 视频
以交互式创建和培训加固学习代理（5:38）- 视频

在MATLAB和Simulink环境建模万博1manbetx

使用加固学习算法的培训是一种动态过程，因为代理与周围的环境交互。对于机器人和自主系统等应用，在具有实际硬件的现实世界中执行此培训可能是昂贵和危险的。这就是为什么通过模拟产生数据的环境的虚拟模型对于加强学习非常胜利。

您可以在Matlab和Simulink中构建您的环境模型，该模拟描述系统动态，它们如何受代理所采取的行动的影响，万博1manbetx以及评估所执行行动的良好的奖励。这些模型本质上可以是连续的或离散的，并且可以在不同程度的保真度下代表您的系统。此外，您可以将模拟并行化以加速培训。在某些情况下，您可以通过最小的修改重复使用系统的现有MATLAB和SIMULINK模型来加强学习。万博1manbetx