标题背后

当今新闻和趋势背后的M万博1manbetxATLAB和Simulink

机器人通过强化学习快速自学走路

来自南加州大学的一组研究人员瓦莱罗实验室建立了一个相对简单的机械手臂,完成了一些简单的惊人的事情:三腱,两关节的机械腿教自己如何移动。是的,通过反复试验进行自主学习。

该小组由弗朗西斯科·瓦莱罗·库瓦斯教授和博士生阿里·马尔贾尼贾德领导。他们的研究被刊登在《科学》三月号的封面上自然机器智能.

瓦莱罗实验室的新机器人肢体。图片来源:南加州大学。

机器人肢体未针对特定任务进行编程。它首先通过对自身的动态特性建模,然后使用一种称为强化学习的人工智能(AI)进行自主学习。机器人腿不再需要一周又一周的编码,而是能够在几分钟内教会自己移动。

灵感来自大自然

机器人专家一直受到大自然的启发,因为,让我们面对现实吧,大自然母亲花了很长时间来完善她的设计。今天,我们看到的机器人像蜘蛛一样走路水下机器人灵感来自海蛇.

生物灵感还影响机器人“思考”的方式,这要归功于模仿生物神经系统处理信息方式的人工智能。例如,人工神经网络(ANN)已被用于复制昆虫的大脑结构改进手写数字的计算机识别。

在这个项目中,设计从自然中汲取了灵感,包括腿部的物理设计和帮助腿部“学会”行走的人工智能。在物理设计上,这种机器人腿使用了肌腱结构,很像为动物运动提供动力的肌肉和肌腱结构。人工智能也从大自然中汲取灵感,利用人工神经网络帮助机器人学习如何控制自己的动作。强化学习然后利用对动力学的理解来实现在跑步机上行走的目标。

强化学习与“马达喋喋不休”

通过将“马达牙牙学语”与强化学习相结合,系统尝试随机运动,并通过运动结果学习系统的特性。在这项研究中,研究小组首先让系统随机播放,或“马达牙牙学语”,以学习肢体的特性及其动力学。

在一个采访电脑杂志Marjaninejad说,“然后,每当[系统]在某项任务中表现良好时,我们就会给它一个奖励。在这种情况下,将跑步机向前移动。这被称为强化学习,因为它类似于动物对积极强化的反应。”

由此产生的算法称为G2P(从一般到特殊)。它通过学习肌腱移动肢体时发生的运动,复制了生物神经系统在控制肢体时面临的“一般”问题。其次是强化(奖励)任务“特定”的行为。在这种情况下,任务将成功移动跑步机。该系统通过马达的嘟嘟声对其动力学产生“一般”的理解,然后通过学习每一次经验或G2P来掌握所需的“特定”任务。

结果令人印象深刻。G2P算法只需5分钟的非结构化游戏,就可以自己学习一个新的行走任务,然后无需任何额外编程就可以适应其他任务。

G2P算法。图片来源:Marjaninejad等。

人工神经网络使用电机牙牙学语的结果在输入(运动运动学)和输出(电机激活)之间创建反向映射。ANN根据强化学习阶段的每次尝试更新模型,以磨练期望的结果。它会记住每次的最佳结果,如果新输入创建了更好的结果,它会用新设置覆盖模型。

神经网络的生成和训练是使用MATLAB和深度学习工具箱. MATLAB代码可在团队的github. 此外,还编写了强化学习算法MATLAB.下面是机器人腿的视频和训练结果。

|
  • 打印
  • 发送电子邮件

评论

如需留言,请点击在这里登录到您的MathWorks帐户或创建新帐户。