主要内容

干净的离群数据

在实时编辑器中查找、填充或删除异常值

描述

干净的离群数据Task让您可以交互地处理数据中的异常值。任务自动生成MATLAB®为您的活动脚本编写代码。

使用此任务,您可以:

  • 查找、填充或删除工作区变量中的数据中的异常值。

  • 自定义查找和填充异常值的方法。

  • 可视化异常数据和已清理的数据。

打开任务

要添加干净的离群数据任务到MATLAB实时编辑器中的实时脚本:

  • 住编辑器选项卡上,单击任务并选择干净的离群数据图标

  • 在活动脚本中的代码块中,键入相关的关键字,例如离群值清洁.选择干净的离群数据从建议的命令补全。

例子

全部展开

控件以交互方式从表中删除异常值干净的离群数据任务在实时编辑器。

使用样本文件中的患者身高和体重数据创建一个表。

负载(“patients.mat”“高度”“重量”) T =表(身高,体重);头(T)
身高体重______ ______ 71 176 69 163 64 131 67 133 64 119 68 142 64 142 68 180

打开干净的离群数据任务在实时编辑器。若要清除患者数据,请选择T作为输入数据。然后,计算高度而且重量通过选择所有受支万博1manbetx持的变量

干净的离群数据任务可以填充或删除离群数据。若要删除与异常身高或体重测量值相对应的表行,请使用清洗方法要选择的字段删除离群值.然后,将异常值定义为低于第10个百分位数或高于第90个百分位数的元素,请使用检测方法要选择的字段百分位数

然后,要可视化已清理的身高和体重数据,请使用要显示的变量字段以选择所有变量。

若要查看此任务生成的代码,请单击展开任务显示向下的小箭头在任务参数区域的底部。

生活任务

图中包含2个轴对象。清除的异常值数量:8包含5个类型为line的对象。这些对象表示输入数据、清理数据、异常值、被其他变量移除的异常值阈值。清除的异常值数量:18包含5个类型为line的对象。这些对象表示输入数据、清理数据、异常值、被其他变量移除的异常值阈值。

相关的例子

参数

此任务对包含在矢量、表或时间表中的输入数据进行操作。数据可以是有类型的

对于表或时间表输入数据,清除具有类型的所有变量中,选择所有受支万博1manbetx持的变量.来选择要清除的变量,选择指定的变量

指定填充异常值的方法作为这些选项之一。

填补方法 描述
线性插值 相邻非离群值的线性插值
恒定值 指定的标量值,即0默认情况下
转换为缺失 转换为标准缺失值的默认定义
中心值 中心值由检测方法确定
剪辑到阈值 小于检测方法确定的下限阈值的元素的下限阈值;大于检测方法确定的上阈值的元素的上阈值
之前的值 之前的非异常值
下一个值 下一个非异常值
最近的价值 最近的非离群值
样条插值 分段三次样条插值
保形立方插值(PCHIP) 保形分段三次样条插值
改进的Akima立方插值 改进的Akima立方Hermite插值

指定用于发现异常值的检测方法作为这些选项之一。

方法 描述
移动平均 异常值被定义为超过特定窗口内局部比例中值绝对偏差(MAD)的指定阈值的元素。默认阈值为3.
中位数 异常值定义为超过中值比例MAD的指定阈值的元素。默认阈值为3..对于输入数据一个,缩放后的MAD定义为c *值(abs(中位数(A))),在那里c = 1 /(√(2)* erfcinv (3/2))
的意思是 异常值被定义为超出平均值标准偏差指定阈值的元素。默认阈值为3..这种方法更快,但健壮性较差中位数
四分位数 异常值被定义为超出四分位数范围指定阈值的元素,四分位数范围高于上四分位数(75%)或低于下四分位数(25%)。默认阈值为1.5.当输入数据不是正态分布时,这种方法很有用。
格拉布 使用Grubbs测试检测异常值,该测试基于假设测试,每次迭代删除一个异常值。该方法假定输入数据是正态分布的。
广泛性极端学生偏位(GESD) 异常值检测使用广义极端学生偏差检验异常值。这种迭代方法类似于格拉布但当多个异常值相互掩盖时,性能会更好。
移动的意思 离群值定义为在指定窗口内超出局部平均值的局部标准偏差的指定阈值的元素。默认阈值为3.
百分位数 异常值定义为超出上限和下限阈值指定的百分位数范围的元素。默认的较低百分比阈值是10,默认的上百分比阈值为90.有效的阈值区间为[0,100]。

当检测异常值的方法为时,指定窗口类型和大小移动平均移动的意思

窗口 描述
为中心的 以当前点为中心的指定窗口长度
不对称 指定的窗口,其中包含当前点之前的元素数量和当前点之后的元素数量

窗口大小相对于变量的单位。

版本历史

R2019b引入

全部展开