探索流行的数据清理方法,快速迭代,专注于分析
数据清理是修改数据以删除或纠正信息,为分析做准备的过程。从业者普遍认为,80%的分析时间都花在数据清理阶段。但是为什么呢?
在收集数据时,通常会有各种各样的挑战需要解决。数据集可能包含缺失点或异常值,或者需要与其他数据集合并。工程和科学数据通常有特定的需求,比如管理高频时间戳、信号处理和数据标记。您需要决定如何处理这些数据清理任务。
这听起来可能很痛苦,但其实不必如此。MATLAB®为数据清理任务提供了许多应用程序和功能,使此阶段更快,信息量更大,以便您可以专注于分析和解决问题。例如,使用MATLAB:
- 使用时间序列数据探索、发现和清除问题数据更清洁应用程序。
- 使用Live Editor任务同步、平滑、删除或填充缺失数据和异常值,以试验各个数据清理方法
- 调用诸如smoothdata和fillmissing等函数,有许多管理数据的选项和方便的函数提示。
- 快速执行特定于领域的数据清理信号分析仪,信号贴标签机,图片标志应用程序。
所有的应用程序和实时编辑器任务自动生成MATLAB代码来记录和自动化您的交互式工作。
数据争吵
您可能听说过它被称为“数据争吵”或“数据清理”,指的是为分析做准备所需的这些不同的数据清理步骤。考虑一个天气传感器系统的数据。传感器可能会暂时失效,在此期间留下丢失的数据点或异常值。不同的传感器通常在不同的时间步长被重新编码,因此数据集必须是同步和插值在时代不匹配的地方。这只是两个例子,但是在您认为数据“干净”之前,可能还有更多的步骤和决策。
常见的数据清理任务包括:
- 填充或删除缺失的数据和异常值
- 平滑和去趋势
- 识别异常值、变更点和极值
- 连接多个数据集
- 基于时间的数据清洗,包括排序、移位和同步
- 对数据进行分组和分组
数学算法被用来解决这些挑战。例如,您可以用最近的邻居或线性插值来填充缺失的数据点。实时编辑器任务和函数,如fillmissing
而且smoothdata
在MATLAB中,将帮助您探索常见的数据清理方法,并立即看到结果,以更快地做出这些决策。
机器与深度学习
在创建预测模型时,数据清理通常需要额外的步骤。考虑图像中的对象检测。在开发分类算法之前,这些物体可能需要在图像中标记。然后,数据必须根据算法的类型(机器学习、深度学习)进行适当的组织,可能使用更少的数据点或“特征”来表示对象。即使在训练了一个模型之后,您也经常会评估特征的重要性,可能会重复不同的数据清理步骤来改进分类。
一般来说,数据通过这样的管道:
- 数据标签
- 一般数据清理
- 特征选择
- 训练和测试预测模型
- 对前面的步骤进行调优和迭代
- 将模型部署到生产
MATLAB在整个工作流程中提供了应用程序和函数。你可以标签类用于图像、信号、音频和视频。