机器学习介绍，第3部分:有监督的机器学习

学习如何使用监督机器学习来训练模型，将输入映射到输出，并预测新输入的输出。

监督式学习技术采取分类或回归的形式。分类技术预测离散响应，而回归技术预测连续响应。本视频介绍了不同的分类和回归算法。它还通过一个示例演示了监督机器学习在现实世界中的工作方式。

监督学习算法同时接受一组已知的输入数据和相应的输出数据。然后，它训练一个模型来将输入映射到输出，这样它就可以预测对任何新输入数据集的响应。

正如我们之前讨论过的，所有监督学习技术都采用分类或回归的形式。

分类技术预测离散响应。如果您想要预测的输出可以分为不同的组，可以使用这些技术。

分类问题的例子包括医学成像、语音识别和信用评分。

另一方面，回归技术预测的是连续反应。

这方面的一个很好的例子是，在任何应用程序中，您所预测的输出可以是某个范围内的任何值，如股票价格和声学信号处理。

现在，假设您有一个要解决的分类问题。让我们简单看一下您可以使用的几种分类算法。

逻辑回归算法是最简单的算法之一。它用于二元分类问题，即只有两种可能输出的问题。当数据可以通过单一的线性边界很好地分离时，它的工作效果最好。您还可以将其用作与更复杂的分类方法进行比较的基准。

袋装决策树和增强决策树将预测能力较弱的单个决策树组合成具有更强预测能力的许多树的集合。

当预测器是离散的或表现为非线性时，以及当您有更多时间训练模型时，最好使用它。

请记住，还有许多其他的分类算法;这只是最常见的两种。

如果你也有回归问题，有很多算法可供选择。

线性回归是一种统计建模技术。当您需要一个易于解释和快速拟合的算法，或者作为评估其他更复杂的回归模型的基线时，可以使用它。

非线性回归有助于描述数据中更复杂的关系。当数据具有很强的非线性趋势并且不能轻易地转换到线性空间时使用它。

再说一次，这只是你可以选择的两种常见回归算法;还有很多你可能需要考虑的因素。

现在让我们把它们放在一起，看看这个过程在现实世界中会是什么样子。

假设你是一家塑料生产厂的工程师。工厂的900名工人一年365天，每天24小时工作。

为了确保在机器故障发生之前捕获它们，您需要开发一个运行状况监视和预测性维护应用程序，该应用程序使用先进的机器学习算法对潜在问题进行分类。

在从工厂中的机器收集、清理和记录数据之后，您的团队评估几种分类技术。对于每一项技术，该团队都使用机器数据训练分类模型，然后测试模型预测机器是否即将出现问题的能力。

实验表明，袋装决策树的集合是最准确的。因此，这就是您的团队在开发预测性维护应用程序时向前迈进的方向。

除了尝试不同类型的模型外，还有许多方法可以进一步提高模型的预测能力。让我们简单地谈谈其中的三种方法……

首先是特征选择，从提供最佳预测能力的数据中识别最相关的输入。记住:一个模型只能和你用来训练它的特征一样好。

其次，特征变换是降维的一种形式，我们在之前的视频中讨论过。以下是3种最常用的技巧。

通过特征转换，您可以降低数据的复杂性，从而使其更容易表示和分析。

超参数调优是提高模型精度的第三种方法。这是一个迭代的过程，你的目标是找到如何训练模型的最佳可能设置。您使用不同的设置重新训练您的模型许多次，直到您发现设置的组合可以产生最准确的模型。

以上就是关于监督学习的简单介绍。在下一个视频中，我们将深入研究一个机器学习工作流示例。

在那之前，一定要查看下面的描述，以获得更多有用的机器学习资源和链接。感谢收看。