数据探索性分析

打开实时脚本

这个例子展示了如何使用描述性统计来研究数据的分布。

生成一个包含随机生成的样本数据的向量。

rng默认的%用于再现性X = [normrnd(4,1,1,100)，normrnd(6,0.5,1,200)];

用正态密度拟合绘制样本数据的直方图。这提供了样本数据和拟合数据的正态分布的可视化比较。

histfit (x)

图中包含一个轴对象。axis对象包含两个类型为bar、line的对象。

数据的分布似乎是偏的。正态分布看起来不太适合这个样本数据。

得到一个正态概率图。这个图提供了另一种方法来直观地比较样本数据与数据拟合的正态分布。

probplot (“正常”, x)

图中包含一个轴对象。标题为正态分布概率图的坐标轴对象包含2个类型为直线的对象。

概率图还显示了数据与正态的偏差。

创建一个箱形图来可视化统计数据。

箱线图(x)

图中包含一个轴对象。axis对象包含7个line类型的对象。

箱形图显示0.25、0.5和0.75分位数。长尾和加号表明样本数据值缺乏对称性。

计算数据的平均值和中位数。

Y =[均值(x)，中位数(x)]

y =1×25.3438 - 5.6872

均值和中值似乎很接近，但均值小于中值通常表明数据是左偏的。

计算数据的偏度和峰度。

Y =[偏度(x)，峰度(x)]

y =1×2-1.0417 - 3.5895

负偏度值表示数据向左偏。由于峰度值大于3，数据具有比正态分布更大的峰度。

通过计算z分数并找出大于3或小于-3的值来识别可能的异常值。

Z = zscore(x);找到(abs (Z) > 3);

根据z值，第3和第35个观测值可能是异常值。

另请参阅