利用强化学习和DDPG永磁同步电动机的磁场定向控制算法。这个演示取代与强化学习代理两个PI控制器内循环间接磁场定向矢量控制的标准体系结构和展示了如何设置和使用强化学习培训代理的工作流程。
在这 视频,我们展示如何 用强化学习领域面向 永磁同步电动机的控制。
展示这一点,我们从一个示例开始,使用典型的面向领域的控制架构,其中外环控制器负责速度控制;而内循环 π 控制器负责控制d-axis q-axis 电流
然后我们创建和验证 强化学习代理 ,取代了内循环控制器的体系结构。
RL剂的使用是特别有益,当系统是非线性的,在这种情况下,我们可以训练一个RL代理而不是优化PI控制器在不同操作条件。
在这个例子中,我们使用直线电机模型来展示磁场定向控制的工作流使用强化学习,这个工作流是相同的一个复杂的非线性运动。
让我们看一下仿真软件模型实现磁场定向万博1manbetx控制架构。
这个模型包含两个控制回路:一个外速度环和一个内部电流环。
外循环中实现速度控制子系统,它包含一个比例积分控制器,负责生成参考电流内循环。
内循环中实现电流控制子系统和包含两个PI控制器在dq坐标系来确定参考电压。
然后用于生成适当的参考电压PWM信号控制的半导体开关逆变器,然后驱动永磁同步电动机来实现所需的扭矩和通量。
让我们继续和运行仿真软件模型。 万博1manbetx
我们可以看到跟踪控制器的性能良好,能够跟踪所需的速度。
让我们将这个结果保存以后与强化学习控制器。
现在我们更新现有的模型替换两个PI控制器的电流环与强化学习代理。
在这个示例中,我们使用DDPG作为强化学习算法,火车一个演员和一个批评家同时学习最优政策,最大化长期回报。
一旦仿真软件模型与万博1manbetx强化学习 更新块,然后我们按照强化学习工作流设置,火车,和模拟控制器。
强化学习工作流程如下:
第一步是创建一个环境。在这个例子中,我们已经有了一个仿真软件建模模型,该模型包含了永磁同步电万博1manbetx动机使用电机控制Blockset和Simscape电气在植物和逆变器子系统。
然后,我们使用该仿真软件模型来创建万博1manbetx一个强化的学习环境以适当的观察和操作界面。
这里的观察来强化学习块定子电流误差的“id错误”和“智商错误”和定子电流“id”和“智商”。
行动是定子电压“vd”和“矢量”。
接下来我们创建奖励信号让强化学习代理知道好或坏的行为它选择在训练,根据其与环境的交互。
这里我们塑造一个奖励基于二次奖励处罚,处罚距离目标和控制工作。
然后我们继续创建网络架构。
这里我们构建所需的演员兼评论家网络DDPG算法编程使用MATLAB函数层和表示。
神经网络还可以构建使用深层网络设计师应用然后导入MATLAB。
评论家网络在这个例子中需要观察和行动作为输入并给出估计Q值作为输出。
演员网络,另一方面,需要在观察输入和行动作为输出。
创建与演员兼评论家表示,我们可以创建一个DDPG代理。
的样品时间DDPG代理配置取决于控制回路的执行要求。
一般来说,代理与较小的样品时间需要更长时间来训练它涉及更多的仿真步骤每一集。
现在我们已经准备好培训代理。
首先,我们指定培训选项。
这里我们指定想要运行培训最多2000集,停止训练如果平均回报超过所提供的价值。
然后,我们使用“火车”命令启动培训过程。
一般来说,最佳实践是随机参考信号控制器在训练过程中获得一种更健壮的政策。可以通过编写一个当地重置功能环境。
在训练过程中,可以在事件管理器监控进展。
培训完成后,我们可以模拟和验证控制策略的训练有素的代理。
通过模拟模型与训练有素的特工,我们看到,磁场定向控制的速度跟踪性能好与强化学习代理控制定子电流。
在观看这场表演以前保存的输出,我们看到,磁场定向控制的性能强化学习代理与PI控制器。
总结了视频。
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。