火车人形沃克

这个示例使用:

这个例子展示了如何建模一个人形机器人使用Simscape多体™和训练它使用遗传算法(这需要一个全局优化工具箱许可)或强化学习(这要求深度学习工具箱™和强化学习工具箱™许可证)。

人形沃克模型

这个例子是基于一个人形机器人模型。您可以打开模型通过输入sm_import_humanoid_urdf在MATLAB®命令提示符。机器人的每条腿torque-actuated转动关节的额臀部,膝盖和脚踝。每个部门有两个被动转动关节在额叶和矢状的肩膀。在仿真过程中,模型的感官接触力,躯干的位置和姿态,联合州,和前沿。图中显示Simscape多体模型在不同的水平。

接触建模

该模型使用空间接触力(Simscape多体)块来模拟脚和地面之间的联络。简化和加快模拟接触,红球是用来表示机器人的脚的底部。更多细节,请参阅使用代理来模拟接触(Simscape多体)。

关节控制器

模型使用一个stiffness-based反馈控制器来控制每个关节[1]。模型关节一阶系统有一个关联的刚度(K)和阻尼(B),您可以设置联合行为临界阻尼。选点时应用扭矩 $θ_{0}$ 不同于当前的共同立场 $θ$ :

$T = B \overset{•}{θ} + K (θ_{0} - - - - - - θ)$ 。

你可以改变弹簧点 $θ_{0}$ 引出一个反馈响应联合。图中显示的仿真软件模型控制器。万博1manbetx

人形沃克培训

这个例子的目的是培养一个仿人机器人行走,并且可以使用各种方法来训练机器人。这个例子显示了遗传算法和强化学习方法。

走的目标函数

这个例子使用一个目标函数来评估不同的行走方式。模型给予奖励( $r_{t}$ 在每个步伐):

$r_{t} = w_{1} v_{y} + w_{2} t_{年代} - - - - - - w_{3} p - - - - - - w_{4} Δ z - - - - - - w_{5} Δ x$

在这里:

$v_{y}$ -前行速度(奖励)
$p$ 功耗(处罚)
$Δ z$ 垂直位移(处罚)
$Δ x$ -侧向位移(处罚)
$w_{1, 。。。, 5}$ :重量,代表每一项的相对重要性在报酬函数

另外,不是摔倒是奖励。

因此,总回报( $R$ )行走试验:

$R = \sum_{t = 0}^{T} r_{t}$

在这里 $T$ 是模拟终止的时间。你可以改变奖励的权重sm_humanoid_walker_rl_parameters脚本。模拟仿真时终止时间达到或机器人。下降的定义是:

机器人低于0.5米。
机器人横向移动超过1米。
机器人躯干旋转30度以上。

火车与遗传算法

优化机器人的步行,你可以使用遗传算法。基于遗传算法解决优化问题的模拟生物进化的自然选择的过程。遗传算法特别适合当目标函数不连续问题,nondifferentiable,随机或高度非线性。有关更多信息,请参见遗传算法(全局优化工具箱)。

模型组角要求各关节的重复模式类似于自然的中枢模式发生器[2]。重复的模式产生一个开环控制器。步态周期的周期性信号,这是时间来完成一个完整的步骤。在每个步态周期,不同角之间的信号开关需求值。理想情况下,仿人机器人行走对称,每个关节的控制模式的右腿被传输到相应的关节在左腿,半个步态周期的延迟。发电机模式的目标是确定最优控制模式为每个关节和最大化目标函数行走。

与遗传算法训练机器人,打开sm_humanoid_walker_ga_train脚本。默认情况下,这个示例使用pretrained人形沃克。训练人形沃克,集trainWalker来真正的。

培训与强化学习

另外,您还可以使用深决定性策略训练机器人梯度(DDPG)强化学习代理。DDPG代理是一个actor-critic强化学习代理计算最优政策,最大化的长期回报。DDPG制剂可用于系统与连续的动作和状态。DDPG代理的详细信息,请参阅rlDDPGAgent(强化学习工具箱)。

与强化学习训练机器人,打开sm_humanoid_walker_rl_train脚本。默认情况下,这个示例使用pretrained人形沃克。训练人形沃克,集trainWalker来真正的。

引用

[1]Kalveram,卡尔·T。,Thomas Schinauer, Steffen Beirle, Stefanie Richter, and Petra Jansen-Osmann. “Threading Neural Feedforward into a Mechanical Spring: How Biology Exploits Physics in Limb Control.”生物控制论92年,没有。4(2005年4月):229 - 40。https://doi.org/10.1007/s00422 - 005 - 0542 - 6。

[2]姜山,军师Cheng和陈堪称佳品。“仿人机器人行走中枢模式发生器的设计基于多目标遗传算法。“在诉讼。2000年IEEE / RSJ智能机器人和系统国际会议(2000年——)(猫。No.00CH37113), 3: 1930 - 35。高松日本:IEEE 2000。https://doi.org/10.1109/IROS.2000.895253。

另请参阅

点(Simscape多体)|点云(Simscape多体)|空间接触力(Simscape多体)