干净的离群数据
在实时编辑器中查找、填充或删除异常值
描述
的干净的离群数据Task让您可以交互地处理数据中的异常值。任务自动生成MATLAB®为您的活动脚本编写代码。
使用此任务,您可以:
查找、填充或删除工作区变量中的数据中的异常值。
自定义查找和填充异常值的方法。
可视化异常数据和已清理的数据。
打开任务
要添加干净的离群数据任务到MATLAB实时编辑器中的实时脚本:
在住编辑器选项卡上,单击任务并选择干净的离群数据图标.
在活动脚本中的代码块中,键入相关的关键字,例如
离群值
或清洁
.选择干净的离群数据
从建议的命令补全。
参数
输入数据
-来自工作空间的有效输入数据
向量|表|时间表
此任务对包含在矢量、表或时间表中的输入数据进行操作。数据可以是有类型的单
或双
.
对于表或时间表输入数据,清除具有类型的所有变量单
或双
中,选择所有受支万博1manbetx持的变量
.来选择单
或双
要清除的变量,选择指定的变量
.
清洗方法
-异常值填充的清洗方法
线性插值
(默认)|恒定值
|转换为缺失
|……
指定填充异常值的方法作为这些选项之一。
填补方法 | 描述 |
---|---|
线性插值 |
相邻非离群值的线性插值 |
恒定值 |
指定的标量值,即0 默认情况下 |
转换为缺失 |
转换为标准缺失值的默认定义 |
中心值 |
中心值由检测方法确定 |
剪辑到阈值 |
小于检测方法确定的下限阈值的元素的下限阈值;大于检测方法确定的上阈值的元素的上阈值 |
之前的值 |
之前的非异常值 |
下一个值 |
下一个非异常值 |
最近的价值 |
最近的非离群值 |
样条插值 |
分段三次样条插值 |
保形立方插值(PCHIP) |
保形分段三次样条插值 |
改进的Akima立方插值 |
改进的Akima立方Hermite插值 |
检测方法
—异常值检测方法
移动平均
(默认)|中位数
|的意思是
|……
指定用于发现异常值的检测方法作为这些选项之一。
方法 | 描述 |
---|---|
移动平均 |
异常值被定义为超过特定窗口内局部比例中值绝对偏差(MAD)的指定阈值的元素。默认阈值为3. . |
中位数 |
异常值定义为超过中值比例MAD的指定阈值的元素。默认阈值为3. .对于输入数据一个 ,缩放后的MAD定义为c *值(abs(中位数(A))) ,在那里c = 1 /(√(2)* erfcinv (3/2)) . |
的意思是 |
异常值被定义为超出平均值标准偏差指定阈值的元素。默认阈值为3. .这种方法更快,但健壮性较差中位数 . |
四分位数 |
异常值被定义为超出四分位数范围指定阈值的元素,四分位数范围高于上四分位数(75%)或低于下四分位数(25%)。默认阈值为1.5 .当输入数据不是正态分布时,这种方法很有用。 |
格拉布 |
使用Grubbs测试检测异常值,该测试基于假设测试,每次迭代删除一个异常值。该方法假定输入数据是正态分布的。 |
广泛性极端学生偏位(GESD) |
异常值检测使用广义极端学生偏差检验异常值。这种迭代方法类似于格拉布 但当多个异常值相互掩盖时,性能会更好。 |
移动的意思 |
离群值定义为在指定窗口内超出局部平均值的局部标准偏差的指定阈值的元素。默认阈值为3. . |
百分位数 |
异常值定义为超出上限和下限阈值指定的百分位数范围的元素。默认的较低百分比阈值是10 ,默认的上百分比阈值为90 .有效的阈值区间为[0,100]。 |
移动窗口
—移动方法窗口
为中心的
(默认)|不对称
当检测异常值的方法为时,指定窗口类型和大小移动平均
或移动的意思
.
窗口 | 描述 |
---|---|
为中心的 |
以当前点为中心的指定窗口长度 |
不对称 |
指定的窗口,其中包含当前点之前的元素数量和当前点之后的元素数量 |
窗口大小相对于轴变量的单位。