数据清洁

探索流行的数据清洁方法并迅速迭代,专注于分析

数据清洁是修改数据以删除或更正准备分析的信息的过程。从业者中的共同信念是,80%的分析时间在此数据清洁阶段上花了。但为什么?

收集数据时,还有各种挑战来解决。数据集可能包含缺少的点或异常值,或者需要与其他数据集合并。工程和科学数据通常具有特定要求,例如管理高频时间戳,信号处理和数据标签。您需要做出关于如何处理这些数据清洁任务的决定。

这可能听起来很痛苦,但它不一定是。马铃薯®提供许多应用程序和功能,用于数据清洁任务,使这一阶段更快,更提供更多信息,因此您可以专注于您的分析和解决问题。例如,使用MATLAB:

  • 使用Live Editor任务同步、平滑、删除或填充缺失的数据和离群值,以交互式地试验数据清理方法(见下文)。
  • 调用函数,例如smoothdata.填充,具有许多管理数据和方便功能提示的选项。
  • 用例如信号分析仪,信号贴标器和信号贴标器快速执行特定于域的数据清洁需求图像贴标器应用程序,也将生成要自动执行这些步骤的代码。

在MATLAB中使用Live Editor任务来探索平滑数据的方法。

数据争吵

也许你听说过“数据争论”或“数据清理”,指的是准备分析所需的不同数据清理步骤。以天气传感器系统的数据为例。传感器可能会暂时失效,在此期间留下缺失的数据点或异常值。不同的传感器通常以不同的时间步长进行记录,因此数据集必须是相同的同步和插值次数不匹配的地方。这些只是两个例子,但在考虑数据“清洁”之前可能有更多的步骤和决定。

常见的数据清理任务包括:

  • 填写或删除缺少的数据和异常值
  • 平滑和扭转
  • 识别异常值,ChangePoints和Extrema
  • 连接多个数据集
  • 基于时间的数据清洁,包括排序,转换和同步
  • 分组和排放数据

数学算法用于解决这些挑战。例如,您可以使用最近的邻居或线性插值填充缺失的数据点。实时编辑任务和功能如填充smoothdata.在MATLAB中,将帮助您探索常见的数据清洁方法,并立即查看结果以使这些决定更快。

使用MATLAB数据清洁功能提示清洁和探索选项(例如,填充功能提示以探索常见填充方法,如线性插值)。有关缺少数据,平滑数据以及使用异常值数据,请参阅以下示例。

机器与深度学习

在创建预测模型时,数据清理中通常会有额外的步骤。考虑图像中的目标检测。在开发分类算法之前,可能需要对图像中的物体进行标记。然后,数据必须根据算法(机器学习、深度学习)的类型进行适当的组织,可能使用更少的数据点,或表示对象的“特征”。即使在训练模型之后,您也经常评估特征的重要性,可能会使用不同的数据清理步骤重复该过程,以改进分类。

一般来说,数据通过这样的管道:

  • 数据标签
  • 通用数据清洗
  • 功能选择
  • 训练和测试预测模型
  • 曲调和迭代以前的步骤
  • 将模型部署到生产中

MATLAB在整个工作流程中提供应用程序和功能。你可以标签课程用于图像,信号,音频和视频。

使用图片标志应用程序选择和标记帧中的对象,并自动在集合中标记剩余的帧。

根据您的域、数据类型和应用程序,通常有更具体的数据清理需求。例如,统计和机器学习工具箱™信号处理工具箱™预测维护工具箱™Text Analytics Toolbox™计算机Vision Toolbox™,音频工具箱™所有包括用于这些格式和应用程序的数据清洁和争吵的功能和应用程序。

有关更多信息,请参见下面的参考资料。

另请参阅:数据科学机器学习深度学习功能选择特征提取图像处理信号处理自然语言处理文本分析