强化学习

本系列提供了对强化学习的概述，这是一种机器学习，有潜力解决一些用传统技术难以解决的控制系统问题。

我们将介绍加固问题的基础知识，以及它与传统控制技术的区别。我们将展示为什么神经网络被用来表示未知的函数，以及agent如何使用来自环境的奖励来训练它们。

在本系列课程结束时，你将更好地准备回答以下问题:

第1部分:什么是强化学习?从工程师的角度了解强化学习的概况。强化学习是一种机器学习，有潜力解决一些非常困难的控制问题。

第二部分:理解环境和奖励在这个视频中，我们通过探索工作流来建立对强化学习的基本理解。什么是环境?奖励功能是如何激励和代理的?政策是如何构建的?

第3部分:策略和学习算法本视频介绍驻留在代理中的算法。我们将讨论为什么要使用神经网络来表示函数，以及为什么要在强大的称为“行为-批评”的方法家族中建立两个神经网络。

第四部分:行走机器人问题本视频展示了如何使用强化学习工作流让双足机器人行走，以及如何通过在设计中添加参考信号来设置RL问题，使其看起来更像传统的控制问题。

第五部分:克服强化学习的实际挑战在生产系统中使用强化学习时会遇到一些挑战，有一些方法可以缓解这些挑战。这个视频涵盖了验证所学的解决方案的困难，以及你可以做些什么。

强化学习斜坡弯道