主要内容

数据更清洁

预处理和组织用于数据

自从R2022a

描述

数据更清洁应用程序识别混乱的用于数据是一个互动的工具,清洗多个变量的数据,和迭代和精炼清洗过程。

使用此应用程序,您可以:

  • 在MATLAB用于数据的访问®工作区或从文件中导入用于数据。

  • 探索数据通过使用可视化、数据和总结观点。

  • 通过一个变量,重命名一个变量,或删除一个变量。

  • 调整时间数据的时间表,堆栈或unstack表变量,干净的缺失数据,清洁的异常数据,平滑的数据,或规范化的数据。

  • 编辑之前执行清洁步骤。

  • 出口数据清洗到MATLAB工作区,或导出数据清理脚本或代码的功能。

  • 数据更清洁应用程序数据目前仅支持清洁表万博1manbetx和时间表。

  • 数据更清洁应用目前支持清洁一次只有一个万博1manbetx表或时间表。

清洁程序中打开这种数据

  • MATLAB将来发布:应用程序选项卡,在MATLAB,点击应用程序图标。

  • MATLAB命令窗口:输入dataCleaner

例子

全部展开

使用数据更清洁应用数据进行预处理和组织混乱的时间表通过移除一个变量,以平滑,规范化数据。然后,清理数据导出到MATLAB工作区。您可以按照以下步骤进行预处理和组织混乱的时间表数据,但是请注意,你的数据可能需要一组不同的清洗步骤。

这个例子展示了如何进行预处理和组织带时间戳的自行车交通数据。数据集来自传感器在百老汇街在剑桥,马。剑桥城提供了公共访问完整的数据集剑桥大学公开数据网站。

  1. 开放的时间表数据更清洁应用程序

    使用MATLAB将来发布或MATLAB命令窗口打开数据更清洁应用程序。

    通过使用加载带时间戳的自行车交通数据bikeData = readtimetable (“BicycleCounts.csv”)在命令窗口中。然后,选择进口>导入工作区数据更清洁应用,并指定时间表bikeData。另外,通过选择导入数据从文件导入>进口数据更清洁应用程序。

    一旦加载到应用程序的时间表,视图的原始数据数据标签和数据汇总总结选项卡。

    摘要标签与一个数据汇总统计数据和变量统计数据包括时间表

    探索中数据的时间表可视化选项卡。选择,西行,往东的时间变量的变量面板。

    故事情节表明有一个时间之间的相关性和自行车交通。

  2. 把变量从时间表

    一天变量包含冗余的数据,因为数据收集的日子反映在时间戳。交互式地删除一天从使用的时间表变量面板。删除变量,单击右键一天并选择删除。变量删除现在出现的一个步骤清洗步骤面板。

  3. 调整时间的时间表

    数据汇总显示缺失和重复的时间表中的时间戳值。对时间表进行排序,建立独特的行乘以,点击调整时间的时间表清洗方法部分的选项卡的程序,指定独特的输入行乘以的选择和使用方法总和聚合方法。接受清洗参数添加清洁步骤和更新的时间表。

    接受以参数之后,更新的数据汇总显示没有缺失或重复的时间戳值,时间戳排序从最早到最新。

    如果以没有必要为你的时间表,你可以交互地排序时间戳或另一个时间变量。通过单击箭头访问排序选项在变量的头数据选项卡。

  4. 平滑的数据

    因为自行车流量峰值,某些天每周,平滑可以在每周减少噪音,给更好的洞察自行车交通趋势。平滑的数据,使用平滑的数据清洗方法。选择移动的意思平滑方法并指定一个集中7天窗口平滑。接受清洗参数添加清洁步骤和更新的时间表。

  5. 规范化的数据

    因为这三个数值变量,西行,往东的有不同的尺度,使用由标准差标准化规模。规范化的数据,使用规范化的数据清洗方法。选择规模归一化法和标准偏差作为规模类型。

    更清楚地预览这个清洗的步骤,明确传说中的原始数据的可视化。接受清洗参数添加清洁步骤和更新的时间表。

    规范化数据的可视化和清洗步骤列表

  6. 出口的时间表

    导出清洁时间表通过选择MATLAB工作空间出口>出口到工作区

    另外,通过选择出口清洁时间表代码出口>生成脚本出口>生成函数

参数

全部展开

清洁缺失的数据

选择其中一个值指定缺失值指标:

指标 指标参数 描述
只使用标准指标 不适用

只使用标准指标检测缺失值。

标准缺失的值依赖于数据类型:

  • - - - - - -,,持续时间,calendarDuration

  • NaT- - - - - -datetime

  • <失踪>- - - - - -字符串

  • <定义>- - - - - -分类

  • {"}- - - - - -细胞特征向量

指定标准的指标 指标 单引号内,非标指示值列表将失踪,之间用逗号分隔。例如,-99年,“N / A”

选择其中一个方法的值,如果有必要,额外的方法参数来指定如何处理缺失数据:

方法 方法参数 描述
填补缺失 最大差距来填补 填补缺失值。空白数据大于指定值不了(积极的标量)。看到填补方法参数。
单位 填补缺失值。指定的差距大小单位类型。
删除丢失 不适用 删除与失踪的条目数据行。

选择其中一个方法的值,如果有必要,额外的方法参数来指定如何填补缺失的数据:

方法 方法参数 描述
恒定值 恒定值 使用一个常数标量值。
之前的值 不适用 使用前一个常数的值。
下一个值 不适用 使用下一个常数的值。
最近的价值 不适用 使用常数的值。
线性插值 不适用 使用相邻的线性插值,常数的值。
样条插值 不适用 使用分段三次样条插值。
一种保形立方插值(PCHIP) 不适用 使用一种保形分段三次样条插值。
修改Akima立方插值 不适用 使用修改后的Akima立方埃尔米特插值。
移动平均 动窗口式 中心或不对称地排列对当前元素移动窗口。
窗口长度 指定的长度(积极标量)移动窗口。
正确的窗口长度的一半(如果移动窗口类型不对称) 指定窗口的数量单位当前元素定义窗口后对齐(积极的标量)。
单位 指定单元类型移动窗口。
移动的意思 动窗口式 中心或不对称地排列对当前元素移动窗口。
窗口长度 指定的长度(积极标量)移动窗口。
正确的窗口长度的一半(如果移动窗口类型不对称) 指定窗口的数量单位当前元素定义窗口后对齐(积极的标量)。
单位 指定单元类型移动窗口。
干净的异常数据

选择其中一个方法的值来指定如何处理异常数据:

方法 描述
填补离群值 填补异常值。看到填补方法参数。
删除离群值 删除数据和异常值的行。

选择其中一个方法的值指定的填充方法取代离群值数据:

方法 描述
恒定值 使用指定的恒定的标量值。
中心值 使用中间值决定的找到方法。
夹阈值 元素使用较低的阈值小于低阈值决定的找到方法。使用元素上阈值大于上阈值决定的找到方法。
之前的值 使用前nonoutlier值。
下一个值 使用第二nonoutlier值。
最近的价值 使用最近的nonoutlier值。
线性插值 使用相邻的线性插值,nonoutlier值。
样条插值 使用分段三次样条插值。
一种保形立方插值(PCHIP) 使用一种保形分段三次样条插值。
修改Akima立方插值 使用修改后的Akima立方埃尔米特插值。

选择其中一个方法的价值和额外的方法参数来指定识别异常数据的检测方法:

方法 方法参数 描述
中位数 阈值的因素 离群值被定义为元素指定的阈值以上的比例平均绝对偏差(疯狂)值。对输入数据一个按比例缩小的疯狂的定义是c *值(abs(中位数(A))),在那里c = 1 / (√(2) * erfcinv (3/2))
的意思是 阈值的因素 离群值被定义为元素超过指定阈值的标准差的意思。这个方法是健壮但低于更快中位数
四分位数 阈值的因素 离群值被定义为元素指定的阈值以上的四分位范围上四分位数以上(75%)或低于下四分位数(25%)。这个方法是有用的,当输入数据不是正态分布。
格拉布 阈值的因素 检测到异常值的测试,使用Grubbs移除基于假设检验的每个迭代一个局外人。该方法假设输入数据是正态分布。
广义极端studentized偏离(GESD) 阈值的因素 检测到异常值使用广义极端studentized偏离检测离群值。这种迭代方法是类似的格拉布但是可以执行更好的多个异常值时互相掩盖。
移动平均 阈值的因素 异常值被定义为元素指定的阈值以上的本地扩展疯狂从本地值在一个指定的窗口。
动窗口式 中心或不对称地排列对当前元素移动窗口。
窗口长度 指定的长度(积极标量)移动窗口。
正确的窗口长度的一半(如果移动窗口类型不对称) 指定窗口的数量单位当前元素定义窗口后对齐(积极的标量)。
单位 指定单元类型移动窗口。
移动的意思 阈值的因素 离群值被定义为元素超过指定阈值的局部标准差从本地的意思是在一个指定的窗口。
动窗口式 中心或不对称地排列对当前元素移动窗口。
窗口长度 指定的长度(积极标量)移动窗口。
正确的窗口长度的一半(如果移动窗口类型不对称) 指定窗口的数量单位当前元素定义窗口后对齐(积极的标量)。
单位 指定单元类型移动窗口。
百分位数 低阈值 离群值被定义为元素指定的百分比范围之外的一个上、下阈值。
上阈值 离群值被定义为元素指定的百分比范围之外的一个上、下阈值。
规范化的数据

选择其中一个方法的值,如果有必要,额外的方法参数来指定数据的方法:

方法 方法参数 描述
z分数 z分数类型

中心和规模意味着0和标准偏差1通过指定标准偏差

值为0,中心和规模平均绝对偏差1通过指定平均绝对偏差

规范 P-Norm 规模数据p规范(积极的标量或无穷范数)。
范围 左极限 重新调节范围的数据与左右范围限制到一个区间的形式[b],在那里< b
权利限制 重新调节范围的数据与左右范围限制到一个区间的形式[b],在那里< b
平均差 不适用 数据中心和规模0和中位数四分位范围1。
中心 中心型

中心意思是0,减去意味着从输入数据的意思是

中心值减去0的值从输入数据中位数

转移中心通过指定的数值数字标量

规模 规模类型

规模数据通过标准偏差标准偏差

规模数据平均绝对偏差平均绝对偏差

规模数据通过数据的第一个元素第一个元素

规模数据四分位范围四分位范围

规模数据除以指定数值因子(积极的标量)数字标量

中心和规模 中心型

中心意思是0,减去意味着从输入数据的意思是

中心值减去0的值从输入数据中位数

转移中心通过指定的数值数字标量

规模类型

规模数据通过标准偏差标准偏差

规模数据平均绝对偏差平均绝对偏差

规模数据通过数据的第一个元素第一个元素

规模数据四分位范围四分位范围

规模数据除以指定数值因子(积极的标量)数字标量

平滑的数据

选择其中一个方法指定值的平滑方法嘈杂的数据:

方法 描述
移动的意思

使用移动平均线。这种方法有助于减少周期性趋势数据。

移动平均 使用移动平均。这种方法有助于减少周期性趋势数据存在异常值。
高斯滤波器 使用Gaussian-weighted移动平均线。
局部线性回归(洛斯) 使用线性回归。该方法可以计算昂贵,但它导致更少的不连续性。
本地二次回归(黄土) 利用二次回归。该方法计算昂贵略高于当地的线性回归。
健壮的洛斯 使用鲁棒线性回归。这个方法是一个更昂贵的版本的局部线性回归计算,但它是更健壮的异常值。
健壮的黄土 使用鲁棒二次回归。这种方法是一种更计算昂贵的版本的本地二次回归,但它是更健壮的异常值。
Savitzky-Golay多项式滤波器 使用Savitzky-Golay多项式滤波器,根据指定的多项式进行了平滑程度和安装在每个窗口。这种方法比其他方法更有效时,数据变化迅速。

选择其中一个参数值和额外的参数选项来指定数据平滑的选项:

参数 参数选项 描述
平滑系数 平滑系数 指定数量的平滑(积极的标量)。
移动窗口 动窗口式 中心或不对称地排列对当前元素移动窗口。
窗口长度 指定的长度(积极标量)移动窗口。
正确的窗口长度的一半(如果移动窗口类型不对称) 指定窗口的数量单位当前元素定义窗口后对齐(积极的标量)。
单位 指定单元类型移动窗口。
调整时间的时间表

选择其中一个方法的价值和其他方法参数来指定调整时间行乘以的选择方法:

方法 方法参数 描述
时间步长 时间步长 指定的时间长度之间的连续输出表中定期间隔一行乘以(积极的标量)。
单位时间步 指定时间步的单位。
采样率 采样率 输出表中指定数量的样本单位时间(积极标量)。
采样率的单位 指定采样率的单位。

选择其中一个方法的值指定以方法:

方法 描述
充满思念 使用缺失的数据指标(例如,对于数值型变量)。
充满常数 使用指定的常数值。默认值是0。
填补与先前的价值 之前复制的数据最近的邻居在输入时间表,从最后一行乘以向量的。如果有重复的行,然后使用最后的副本。
充满未来价值 复制数据从最近的邻居在输入时间表后,从一开始的行乘以向量。如果有重复的行,然后使用的第一个副本。
充满最近的价值 复制数据从输入的最近邻的时间表。
线性插值 使用线性插值。
样条插值 使用分段三次样条插值。
一种保形立方插值(PCHIP) 使用一种保形分段立方插值。
修改Akima立方插值 使用修改Akima立方埃尔米特插值。
总和 在每一次使用的总和值。
的意思是 在每次使用值的均值。
产品 在每次使用的乘积值。
最低 在每次使用最小的值。
最大 使用最大的值在每个时间。
值的数量 在每一次本使用的数量值。
第一个值在本 在每一次本使用第一个值。
最后一个值在本 在每一次本使用最后一个值。
自定义 使用指定的功能函数句柄。
栈表变量

选择一个或多个表变量结合起来。

Unstack表变量

选择一个表变量包含新表的名称变量。

选择一个表变量来unstack为多个表变量。

选择一个或多个表变量来定义组行。

选择其中一个值指定功能聚合数据值到一个值:

函数 描述
总和 使用每一组值的和。
的意思是 使用每一组值的均值。
中位数 使用每一组值的中值。
模式 使用每组值的模式。
最大 使用每一组的最大价值。
最低 使用每组的最小值。
第一个 使用每一组的第一个值值。
独特的 在每一组中使用独特的数量值的值。
在每一组中使用的数量值的值。
自定义 使用指定的功能函数句柄。

提示

  • 交互类的数据变量,通过单击箭头访问排序选项在变量的头数据选项卡。排序出现的一个步骤清洗步骤面板。

  • 交互式地重命名的变量数据,双击的变量名变量面板。重命名出现的一个步骤清洗步骤面板。

  • 交互式地删除一个变量的数据,右键单击的变量名变量面板并选择删除。消除出现的一个步骤清洗步骤面板。

  • 改变先前执行的清洗步骤,执行这些操作之一:

    • 通过点击查看或编辑清洗参数的一个步骤清洗步骤面板。

    • 改变清洗步骤的顺序由拖动到一个新的位置清洗步骤面板。

    • 禁用清洗步骤通过清理清洗步骤或右击并选择迈出的一步禁用下面的步骤清洗步骤面板。

  • 只有输入数据或清洗数据视图,选择或清除元素情节的传说可视化选项卡。

版本历史

介绍了R2022a

全部展开