数据清洁

探索流行的数据清洁方法并迅速迭代,专注于分析

数据清洁是修改数据以删除或纠正准备分析的信息的过程。从业者之间的共同信念是,80%的分析时间在此数据清洁阶段上花了。但为什么?

收集数据时,还有各种挑战来解决。数据集可能包含缺少的点或异常值,或者需要与其他数据集合并。工程和科学数据通常具有特定要求,例如管理高频时间戳,信号处理和数据标签。您需要做出关于如何处理这些数据清洁任务的决定。

这可能听起来很痛苦,但它不一定是。马铃薯草®提供许多应用程序和功能,用于数据清洁任务,使这一阶段更快,更具信息丰富,因此您可以专注于您的分析和解决问题。例如,使用MATLAB:

  • Synchronize, smooth, remove, or fill missing data and outliers with Live Editor tasks to experiment with data cleaning methods interactively (see below).
  • 呼叫功能如smoothdata.and填充,具有管理数据和方便功能提示的许多选项。
  • 用例如信号分析仪,信号贴标器和信号贴标器快速执行特定于域的数据清洁需求图像贴标器应用程序,它还将生成代码以自动执行这些步骤。

使用MATLAB现场编辑任务探索冰毒ods for smoothing data.

Data Wrangling

Maybe you’ve heard it called “data wrangling” or “data munging,” referring to these different data cleaning steps required to prepare for analysis. Consider data for a system of weather sensors. The sensors could fail temporarily, leaving missing data points or outliers during that time. Different sensors are often recoded at different timesteps, so the data sets must be同步和插值次数不匹配的地方。这些只是两个例子,但在考虑数据“清洁”之前可能有更多的步骤和决定。

常见的数据清洁任务包括:

  • 填写或删除缺少的数据和异常值
  • 平滑和扭转
  • 识别异常值,ChangePoints和Extrema
  • 加入多个数据集
  • 基于时间的数据清洁,包括排序,转移和同步
  • 分组和排放数据

数学算法用于解决这些挑战。例如,您可以使用最近的邻居或线性插值填充缺失的数据点。实时编辑任务和功能填充andsmoothdata.在Matlab中,可以帮助您探索常见的数据清洁方法,并立即查看结果以使这些决定更快。

马铃薯草data cleaning function

使用MATLAB数据清洁功能提示清洁和探索选项(例如,填充功能提示探索常见填充方法,如线性插值)。有关缺失数据,平滑数据以及使用异常数据,请参阅以下示例。

Machine and Deep Learning

There are often additional steps in data cleaning when creating predictive models. Consider object detection in images. The objects may need to be labeled in the images before developing an algorithm to classify them. Then the data must be organized appropriately depending on the type of algorithm (machine learning, deep learning), possibly using fewer data points, or “features,” which represent the objects. Even after training a model, you often assess feature importance, possibly repeating the process with different data cleaning steps to improve the classifications.

In general, the data goes through a pipeline like this:

  • 数据标签
  • General data cleaning
  • 功能选择
  • Train and test predictive model
  • 在上一步上调整和迭代
  • Deploy model to production

Matlab在整个工作流程中提供应用程序和功能。你可以标签课程用于图像,信号,音频和视频。

图像贴标器app

使用图像贴标器app选择和标记框架中的对象,并自动在集合中标记剩余的帧。

There are often more specific data cleaning needs, based on your domain, type of data, and application. For example,统计和机器学习工具箱™信号处理工具箱™预测维护工具箱™Text Analytics Toolbox™计算机Vision Toolbox™那andAudio Toolbox™所有包括用于这些格式和应用程序的数据清洁和争吵的功能和应用程序。

For more information, see the resources below.

也可以看看:数据科学机器学习深度学习功能选择特征提取图像处理signal processing自然语言处理文本分析