机器学习简介，第3部分:有监督的机器学习

亚当•Filion MathWorks

了解如何使用监督机器学习培训模型来映射输入以输出并预测新输入的输出。

监督式学习技术采取分类或回归的形式。分类技术预测离散响应，而回归技术预测连续响应。本视频将介绍不同的分类和回归算法。它还演示了一个例子，说明了监督机器学习如何在现实世界中工作。

监督学习算法采用已知的一组输入数据和相应的输出数据。然后，将模型培训到将输入映射到输出，因此它可以预测对任何新的输入数据集的响应。

正如我们之前讨论过的那样，所有监督的学习技巧都采用分类或回归的形式。

分类技术预测离散响应。如果想要预测的输出可以被分成不同的组，那么就使用这些技术。

分类问题的示例包括医学成像，语音识别和信用评分。

另一方面，回归技术预测连续响应。

这方面的一个很好的例子是任何应用程序，其中你预测的输出可以在一定范围内取任何值，比如股票价格和声音信号处理。

现在，假设您要解决一个分类问题。让我们简单看一下您可以使用的几个分类算法。

Logistic回归算法是最简单的算法之一。它用于二值分类问题，即只有两种可能输出的问题。当数据可以被一个单一的线性边界很好地分开时，它是最有效的。您还可以将它用作与更复杂的分类方法进行比较的基线。

Bagged和boosting决策树将预测能力较低的单个决策树组合成一个具有更大预测能力的许多树的集成。

当预测器是离散的或非线性的，当你有更多的时间来训练一个模型时，它是最好的使用。

请记住，还有许多其他分类算法;这些只是最常见的两个。

如果您还有回归问题，则有很多算法可供选择。

线性回归是一种统计建模技术。当您需要一个易于解释和快速拟合的算法时使用它，或者作为评估其他更复杂，回归模型的基线。

非线性回归有助于描述数据中更复杂的关系。当数据具有强烈的非线性趋势时使用它，并且不能轻易转换为线性空间。

同样，这些只是两个常见的回归算法，你可以选择;还有更多您可能需要考虑。

现在让我们把它全部放在一起，看看这个过程如何看待现实世界。

假设你是一家塑料生产厂的工程师。该工厂的900名工人每天24小时工作，一年365天。

为了确保在发生机器之前捕获机器故障，您需要开发使用先进的机器学习算法来分类潜在问题的健康监控和预测维护应用程序。

从工厂的机器收集，清洁和记录数据后，您的团队会评估几种分类技术。对于每种技术，该团队使用机器数据列举分类模型，然后测试模型预测机器即将出现问题的能力。

测试表明，袋装决策树的集合是最准确的。因此，这就是您的团队在开发预测维护申请时向前迈进的内容。

除了尝试不同类型的模型之外，还有很多方法可以进一步提高模型的预测力量。让我们简单地谈论只有三种方法......

第一个是特征选择，从提供最佳预测能力的数据中识别出最相关的输入。记住:一个模型只能和你用来训练它的特征一样好。

第二，特征变换是降维的一种形式，我们在之前的视频中讨论过。以下是3种最常用的技巧。

通过特征转换，您可以降低数据的复杂性，这可以使数据更容易表示和分析。

超参数调优是提高模型精度的第三种方法。这是一个迭代过程，您的目标是找到如何训练模型的最佳可能设置。您可以使用不同的设置多次重新训练您的模型，直到您发现可以产生最精确的模型的设置组合。

所以这是一个快速看待监督学习。在我们的下一个视频中，我们将深入了解一个示例机器学习工作流程。

在那之前，一定要看看下面的描述，获取更多有用的机器学习资源和链接。谢谢收看。