机器学习入门，第4部分:开始机器学习

赛斯迪兰,MathWorks

逐步完成机器学习工作流程，并深入了解过程中的几个关键决策点。

该视频展示了如何使用机器学习来开发一个手机健康监测应用程序。它首先导入和研究数据。然后讨论了数据预处理和特征工程，将原始数据转化为机器学习算法可以使用的信息。视频介绍了机器学习模型，如决策树和模型评估工具，如混淆矩阵。然后展示如何改进和验证模型，以便您可以找到移动到电话并开始跟踪的最佳模型。

在机器学习中，从开始到结束几乎没有一条直线——你会发现自己在尝试不同的想法和方法。

今天，我们将逐步介绍机器学习的工作流程，并将重点介绍几个关键的决策点。

每一个机器学习工作流程都从三个问题开始:

这个视频中的例子是基于一个手机健康监测应用程序。输入由手机的加速度计和陀螺仪的传感器数据组成。

反应是贯穿的活动——步行、站立、跑步、爬楼梯或躺下。我们希望使用传感器数据来训练一个分类模型来识别这些活动。

现在让我们一步一步地完成工作流程的每一部分，看看我们如何让我们的健身应用工作。

我们将从手机传感器的数据开始。

文本或CSV之类的平面文件格式很容易处理，并且使得导入数据非常简单。

现在我们将所有数据导入MATLAB并绘制每个标记集，以了解数据中的内容。

为了预处理数据，我们寻找丢失的数据或异常值。在这种情况下，我们也可以考虑使用信号处理技术来消除低频引力效应。这将有助于算法关注主体的移动，而不是手机的方向。

最后，我们将数据分为两组。我们保存一部分数据用于测试，其余的用于构建模型。

特征工程是机器学习中最重要的部分之一。它将原始数据转化为机器学习算法可以使用的信息。

对于活动跟踪器，我们希望提取能够捕获加速计数据的频率内容的特性。

这些特征将帮助算法区分步行(低频)和跑步(高频)。

我们创建一个包含所选特性的新表。

您可以获得的特性的数量仅受限于您的想象力。然而，有很多技术通常用于不同类型的数据。

现在是构建和培训模型的时候了。

从像基本决策树这样简单的东西开始是一个好主意。这将运行得很快，并且易于解释。

为了了解它的执行情况，我们看一下混淆矩阵，这个表比较了模型与实际类标签之间的分类。

混淆矩阵表明我们的模型在区分跳舞和跑步方面有困难。

也许决策树不适合这种类型的数据。我们试试别的吧。

让我们尝试一个多类支持向量机(SVM)。万博1manbetx

用这种方法，我们现在得到99%的准确率，这是一个很大的进步。

我们通过对模型进行迭代和尝试不同的算法来实现我们的目标，但是很少有这么简单的。

如果我们的分类器仍然不能可靠地区分跳舞和跑步，我们就会寻找其他方法来改进模型。

改进一个模型可以采取两个不同的方向:使模型更简单以避免过度拟合，或者增加复杂性以提高准确性。

一个好的模型只包含具有最大预测能力的特性，因此要简化模型，我们首先应该尝试减少特性的数量。

有时，我们会寻找减少模型本身的方法。我们可以通过从决策树中修剪树枝或从集成中删除学习者来做到这一点

如果我们的模型仍然不能区分跑步和跳舞，这可能是由于过度概括。因此，为了微调我们的模型，我们可以添加额外的特性。

在我们的例子中，陀螺仪记录手机在活动过程中的方位。

这些数据可能为不同的活动提供惟一的签名。

例如，可能存在加速和旋转的组合，这是跑步所特有的。

现在我们已经调整了我们的模型，我们可以根据我们在预处理中设置的测试数据来验证它的性能。如果模型能够可靠地对活动进行分类，我们就可以将其转移到电话上并开始跟踪。

以上就是机器学习的例子和机器学习的概述系列视频。更多信息，请查看下面的链接。

在下一篇系列文章中，我们将讨论一些与机器学习相关的高级主题，比如特性工程和超参数调优。