主要内容

分散的措施

的目的离散度的测量方法是找出数据值在数轴上的分布情况。这些统计数据的另一个术语是传播度量。

表格给出了函数名称和描述。

函数名

描述

位差

四分位范围

疯了

平均绝对偏差

时刻

所有命令的中心时刻

范围

范围

性病

标准偏差

var

方差

极差(最大值和最小值之间的差值)是最简单的价差度量方法。但如果数据中有一个异常值,它将是最小值或最大值。因此,该范围对于异常值并不稳健。

对于正态分布的样本来说,标准差和方差是最优的流行的价差度量方法。样本方差是正态参数σ的最小方差无偏估计量(MVUE)2.标准差是方差的平方根,具有与数据相同单位的理想特性。也就是说,如果数据以米为单位,那么标准差也以米为单位。方差的单位是米2,这就更难解释了。

无论是标准偏差还是方差对异常值都不可靠。与数据体分离的数据值可以以任意大的数量增加统计信息的值。

的意思是绝对偏差(MAD)对异常值也很敏感。但是,在对错误数据作出反应时,MAD的变化并不像标准偏差或方差那么大。

四分位差(interquartile range, IQR)是数据的第75和第25个百分位之间的差值。由于只有中间50%的数据会影响这一度量,所以它对于异常值是稳健的。

比较离散度

这个示例演示了如何计算和比较包含一个离群值的样本数据的离散度。

生成包含一个离群值的样本数据。

x =((1,6), 100年)
x =1×71 1 1 1 100

计算样本数据的四分位范围、平均绝对偏差、范围和标准偏差。

统计=[差(x)疯狂(x)范围(x)性病(x))
统计=1×40 24.2449 99.0000 37.4185

四分位数范围(位差)是样本数据的第75和第25个百分位数之间的差异,并且对异常值具有鲁棒性。的范围(范围)是数据中最大值和最小值之间的差值,并且受到离群值存在的强烈影响。

两者的平均绝对偏差(疯了)及标准差(性病)对异常值很敏感。然而,平均绝对偏差的灵敏度低于标准偏差。

相关的话题