从系列:机器学习概论
赛斯迪兰MathWorks公司
一步一步地完成机器学习工作流程,并在此过程中深入了解几个关键的决策点。
该视频展示了如何使用机器学习开发一款手机健康监测应用程序。它首先导入和探索数据。然后讨论了数据预处理和特征工程,将原始数据转化为机器学习算法可以使用的信息。视频介绍了机器学习模型(如决策树)和模型评估工具(如混乱矩阵)。然后,它展示了如何改进和验证模型,这样您就可以找到最好的模型来移动到手机上并开始跟踪。
在机器学习中,从开始到结束很少是一条直线——你会发现自己在尝试不同的想法和方法。
今天,我们就通过机器学习工作流程一步一步走,我们会专注于沿途的几个关键决策点。
每个机器学习工作流程都从三个问题开始:
在这个视频的例子是基于手机健康监测应用程序。输入包括从手机的加速计和陀螺仪传感器的数据。
该反应是开展的活动,行走,站立,跑步,爬楼梯或躺着。我们希望使用传感器数据来训练分类模型,以确定这些活动。
现在让我们一步一步的通过工作流程的每个部分,看看我们如何能使我们的健身应用程序工作。
我们会从手机上的传感器的数据开始。
像文本或CSV这样的平面文件格式很容易使用,并且可以直接导入数据。
现在我们把所有的数据导入到MATLAB中,然后画出每个标记的集合来了解数据中有什么。
为了预处理数据,我们寻找丢失的数据或异常值。在这种情况下,我们也可以考虑使用信号处理技术来消除低频引力效应。这将有助于算法关注主体的运动,而不是手机的方向。
最后,我们将数据分为两组。我们保存部分数据用于测试,并使用其余数据构建模型。
特征工程是机器学习的重要组成部分之一。它将原始数据转化为机器学习算法可以使用的信息。
对于行为跟踪,我们要提取的特点是捕捉加速计数据的频率内容。
这些特征将帮助算法区分行走(低频)和运行(高频)。
我们创建一个新表,其中包括所选的功能。
的功能,你可以得到数由你的想象力的限制。不过,也有不少常用于不同类型的数据的技术。
现在是构建和训练模型的时候了。
这是一个好主意,开始用一些简单的像一个基本的决策树。这将运行速度快且容易理解。
为了了解它的执行情况,我们看一下混淆矩阵,它是一个比较模型和实际类标签所做分类的表。
混淆矩阵显示,我们的模式是有问题的跳舞和跑步区分。
也许决策树并不适合这种类型的数据。我们试试别的。
让我们试试多类支持向量机。万博1manbetx
通过这种方法,我们现在获得99%的准确率,这是一个很大的进步。
通过对模型进行迭代并尝试不同的算法,我们达到了我们的目标。
如果我们的分类仍然无法可靠地跳舞和跑步区分,我们会考虑其他方法来改进模型。
改进的模型可以采取两种不同的方向:使模型更简单,避免过度装修,或为了提高精度增加复杂性。
一个好的模型仅包括与最有预测力的功能,所以为了简化模型,我们应首先尝试和减少了一些功能。
有时,我们会考虑减少模型本身的方法。我们可以通过从决策树中删除分支或从集成中删除学习者来做到这一点
如果我们的模型仍然无法向运行和舞蹈之间的区别,这可能是由于过度以偏概全。因此,微调我们的模型,我们可以添加额外的功能。
在我们的例子中,陀螺仪记录活动期间手机的方向。
该数据可以为不同的活动提供唯一的签名。
例如,有可能是加速度和旋转速度所独有的运行的组合。
现在,我们已经调整了我们的模型,我们可以验证其对我们在预处理抛开了测试数据的性能。如果模型能够可靠地分类活动,我们准备把它移动到手机,并开始跟踪。
所以,这包装了我们的机器学习的榜样,我们的机器学习概述视频系列。欲了解更多信息,请点击下面的链接。
在下一个系列中,我们将研究一些与机器学习相关的高级主题,比如特性工程和超参数调优。
您还可以选择从下面的列表中的网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。