强化学习是什么?|强化学习,第1部分

布莱恩•道格拉斯

人工智能、机器学习、神经网络。这些条款可以激发你的想象力未来机器人是思考和发展的生物。

在这个视频中,我们概述强化学习从一个工程师的角度来看。强化学习是机器学习的类型,有可能解决一些很难控制问题。年底本系列中,您将更好地准备回答这样的问题:

强化学习是什么,我为什么要考虑当解决控制问题吗?
我如何设置和解决强化学习问题?
有哪些优缺点的强化学习传统的控制方法相比呢?

人工智能、机器学习和神经网络。这些条款可以激发你的想象力未来机器人是思考和发展的生物。在这个视频中,我们将看看强化学习,或RL,我有时会缩写。这种类型的机器学习有可能解决一些很难控制问题。

你也许听说过,AI公司,深刻的思想,创建了一个名为AlphaGo。它是一个人工智能,利用强化学习打败世界上最好的球员,然后他们最近创建的α星,就是准备在星际争霸2的场景。很自然地,你可能会想,如果能做到这一点,为什么我不能使用强化学习来控制机器人或酷我的数据中心或稳定无人机在一个高度动态和湍流吗?

好吧,让我们谈谈。现在,一个快速警告在我们开始之前。这并不是一个详尽的强化学习。我不会有资格向你解释这一切。相反,我想介绍这个话题的观点的传统训练控制工程师,我希望告诉你,实际上有很多重叠与控制理论。

本系列结束的,我认为你会更好准备回答这样的问题,什么是强化学习,我为什么要考虑当解决控制问题吗?我如何设置和解决强化学习问题?的一些优缺点是什么强化学习传统的控制方法相比呢?

好吧,所以设置了本系列的范围,让我们去得到它。我是布莱恩,欢迎来到MATLAB技术说话。让我们首先考虑建立一个步行机器人的复杂性从传统的控制方法的角度。我们可能使用摄像机视图环境,然后提取图像的特性,可以被转换成信号位置或位置的障碍。

我们可以把这些观察与其他传感器,完成状态估计,然后使用植物的模型和环境来设计控制系统。很可能,这将包括多个控制回路,所有的相互作用。例如,会有低级电机控制器和高级控制器管理腿轨迹或机器人躯干轨迹。也许一个更高级的控制器管理平衡或反常行为。

和一切都一起工作在一个不确定的环境来生成这个复杂的运动散步,可以真正挑战。相反的这种复杂性,让我们把它分解为一个黑盒,只需要直接观察和输出低级运动命令。如果我们无限聪明,我们可以坐下来,设计一个函数,可以得到一个机器人行走而无需关心内部的所有步骤。但是因为我们没有,机器学习。

一般来说,机器学习可以分为三个类别:无监督学习,监督学习和强化学习。无监督学习是用来发现模式或隐藏的结构和数据集没有分类或标记。例如,想象你收集了100000只动物的信息——像一堆物理属性和社会倾向。

然后您可以使用无监督学习组动物或集群相似的特征。这可以明显的像分组成哺乳动物和鸟类,或将它们分组模式,可能不是那么明显发现身体特征之间的相关性和社会行为,你没有提前知道。监督式学习,另一方面,是在一个微妙的方式不同,我们训练计算机一个标签适用于一个给定的输入。

例如,假设一个列的数据集的动物特征的物种。我们可以把物种的标签和其他数据作为输入到一个数学模型。然后我们可以使用监督学习来训练我们的模型正确标签每组动物特征的输入一次,让模型猜物种,然后系统地调整模型基于猜测是正确与否。

如果我们有足够的训练数据得到一个可靠的模型,通过输入特性我们可以发送新的动物,我们没有标记,和我们的培训模式将应用最可能的物种标签。和监督学习是机器学习的类型,大多数人都很熟悉,因为它就是让计算机识别猫的照片或你的朋友的照片。

从根本上标签应用到一个图像是完全一样的问题,应用一个标签的数据集动物特征。我们输入一堆到模型训练图像,然后我们调整模型基于是否猜对了直到准确。所不同的是,输入数据的图像仅仅是一连串的数字代表像素强度,所以这不是简单的理解,与一只猫。

这就是深度学习擅长。代表模型深层神经网络,我们有一个有效的方式输入成千上万的数字,然后调整它在培训期间可以识别特性的数组内像素强度,最终将使其应用正确的标签。强化学习是一个完全不同的野兽。与其他两种学习框架使用一个静态数据集,RL与动态环境和目标不是集群数据或标签数据,但要找到最佳的活动序列,将产生最优的结果。

最优在这个意义上意味着收集最奖励。它允许一个软件叫代理去探索,相互作用,从环境中学习。代理可以采取行动影响环境,改变它的状态,和环境然后生成一个奖励,行动。在使用这些信息,代理可以调整操作在未来。它可以从这个过程中不断学习。

虽然你可能不是一个软件,你在本质上相同的方式学习一个软件代理学习与强化学习框架。你可以被认为是一个代理,你周围的世界是可以与环境,观察其状态,并收集奖励。你得到回报的环境采取行动,是好的,就像你上大学——行动——找到了一份工作——国家——而且工作,报酬也很不错——奖励。

或者你看两种方法在过马路之前,行动。你要另一边,状态。和你没有得到运行在这个过程中,奖励。或者,你得到低或负奖励采取行动,是坏的。像你这样熬夜考试之前,行动。你累了,状态。你收到了低分,奖励。

内代理有一个大脑状态的观察,输入,和地图操作,输出。在RL命名法,这种映射称为政策。给定一组的观测,政策决定的行动,就像与监督学习,我们可以代表政策深层神经网络,我们将让我们的代理输入的后面看到成千上万的状态,仍然能够想出一个有意义的行动。

这是深强化学习一词来自何处。在步行机器人的例子中,观察可能是每一个联合的国家的成千上万的像素相机传感器。政策需要在所有这些观察和输出驱动命令。如果机器人保持直立,继续行走,环境会产生一个奖励,告诉代理如何好,非常具体的执行机构的组合命令。

当然,这项政策可能不会正确地映射到采取最佳行动或环境可能会慢慢改变,所以映射不再是最优的。这就是强化学习算法。他们改变政策的基础上,采取了行动,从环境中观察,收集的奖励。这样,整个代理的目的是利用强化学习算法来修改其政策与环境的相互作用,最终,鉴于任何国家,它总是采取最有利的行动,将产生的最长期回报。

举个例子,如果你累了你的考试,你得到一个坏成绩,嗯,你从中吸取教训,调整你的策略,这样你就不会在下次考试之前熬夜。现在,强化学习的核心是一个优化问题,但也有一些很有趣的概念,强化学习有别于其他优化技术。首先是价值的想法。

奖励瞬时的好处是在一个特定的状态,而价值是总奖励一个代理可以收集从状态,开始走向未来。评估一个国家的价值而不是评估奖励帮助代理选择行动,将收集最奖励随着时间的推移,而不是短期利益。例如,假设我们的代理是在这种情况下,试图收集最奖励在三个步骤。

如果代理看起来直接在每个行动的奖赏,那么它将左第一个得到更高的报酬,然后右然后再离开最终收集+ 1。然而,如果代理能够估计状态的值,那么它会发现有一个更高的价值比离开,并将最终与+ 8的奖励。当然,通常高回报的承诺在未来仍可能并不意味着行动是最好的,至少有两个原因。

一,与金融市场,现在钱在你的口袋可以比一年更多的钱在你的口袋里。第二,你预测未来的回报变得不那么可靠,因此,高回报的可能不是你到达的时候。在这两种情况下,它更有利于更短视的估算值。

在RL,我们可以控制这个被贴现回报更大数量的进一步在未来。强化学习的另一个关键方面是勘探开发之间的权衡与环境交互时。这是收集最回报之间的贸易,你已经知道与探索的区域环境,你还没有去过。

例如,假设代理只知道两个奖励就在它附近。如果花了贪婪的方法利用环境,它只会追求最高的奖励它知道,所以它会收集1。然而,如果我们偶尔让代理探索状态空间——即使是在收集的风险更少的奖励——它可以填写更多的价值函数,它打开的可能性不知道寻找更高的回报。

这是我们正常的学习过程作为人类的一部分。一个简单的例子是决定你想吃饭的餐厅。你知道你喜欢选择一个餐厅,因此利用你的知识吗?或者你冒险和探索你以前从未去过的一家餐馆,增加你的知识?

现在,尝试一种新的餐厅给了你机会找到新的喜欢的地方,但这也会增加你的机会你不喜欢吃饭。难以解决的探索和利用之间的完美平衡,但是,至少,RL算法提供了一种简单的方式来平衡。好了,开始觉得RL有着完全不同的目标比控制工程师正在做什么当我们设计控制系统,但这是几乎完全相同的问题。

我们试图找出如何设计控制器,或政策,地图的观察状态的植物,或环境,最好的执行命令,行动。当我们设计一个控制器,我们基本上是做一次性的政策更新。和的一种方式,我们可以设计一个最优控制器是通过最小化代价函数,就像我们等,和成本是负的奖励,所以通过最大化回报,我们解决同样的问题最小化成本。

所不同的是,在强化学习,计算机试图学习最优行为随着时间的推移,明确而不是设计师解决了它。这就像一个自适应控制器的调整机制,调整参数在每个样本的时间。通过这种方式,我们可以设计一个控制器,它是一个政策,不知道任何关于系统本身。并没有解决任何传统的控制问题,我们只是让电脑自己学习正确的参数通过这一过程可以认为是花哨的试验和错误的。

现在,即使学习算法为我们做大部分的工作,我们不能进入这个过程完全一无所知。我们必须知道的几件事在我们开始之前,第一,我们需要了解我们的系统,我们试图控制和确定最好解决问题与传统控制技术或与强化学习。如果我们选择学习路径,那么我们需要设置政策,让它有足够的参数和正确的结构,这样它就可以被成功修改。它对我们没有任何好处,如果我们希望控制多维系统只是给它一个参数。

我们还需要知道一个成功的结果将是,和奖励的控制器。这就需要制定一个奖励函数,以便学习算法理解越来越好,最终落定的时候你正在寻找的结果。第三,我们需要申请一个高效的算法,看着奖励和系统状态和知道如何调整参数,以便过程收敛在任何合理的时间。

我们还将设置参数勘探开发和折现未来的回报。在接下来的几个视频,我们将详述此内容通过查看工作流详细的强化学习。我们来看看政策,介绍了神经网络的结构,我们会讨论如何制定适当的奖励函数对最终结果的影响,我们将看一个非常高的概述一些有趣的学习算法。

如果你不想错过下一个科技视频说话,别忘了订阅这个通道。同样的,如果你想看看我的通道控制系统讲座,我覆盖更多的控制理论主题。谢谢收看,下次再见。