箱形图

箱形图提供了对样本数据的汇总统计的可视化,并包含以下功能:

  • 每个“盒子”的顶部和底部分别是样本的第25和75个百分位数。顶部和底部之间的距离是四分位间距。可以使用下面的命令来计算四分位数范围的值位差

  • 每个框中间的线是样本中值。如果中值不在框中,则表示样本偏度。的值可以计算中值的值中位数函数。

  • 胡须是在每个盒子上下延伸的线条。须从四分位范围的两端绘制到须长度内最远的观测值相邻的值).

  • 超出须长度的观察被标记为离群值。默认情况下,离群值是距离框顶部或底部的四分位数范围的1.5倍以上的值,但该值可以通过额外的输入参数进行调整。异常值用红色的“+”标记。

  • 凹槽显示了样本间中值的可变性。凹槽宽度的计算,使得凹槽不重叠的箱形图(如上图所示)在5%显著性水平上有不同的中位数。显著性水平是基于正态分布的假设,但对其他分布的中值比较是相当可靠的。比较箱线图中值就像视觉假设检验,类似于t用于手段的测试。

由于箱形图比直方图显示的细节更少,所以它们对于两种分布的并排比较最有用。

使用箱形图比较分组数据

加载Fisher虹膜样本数据。数据包括三种鸢尾花的萼片和花瓣的长度和宽度的测量。将花斑鸢尾的花瓣长度数据存储为s1的花瓣长度数据为s2

负载fisheririss1 =量(51:100 3);s2 =量(101:150 3);

使用示例数据创建框图。在地块上包括一个缺口,并在每个盒子上标上它所代表的鸢尾物种的名称。

图箱线图((s1 s2),“缺口”“上”...“标签”, {“多色的”“virginica”})

两个箱形图的缺口不重叠,说明花斑和维珍的中位花瓣长度在5%的显著水平上存在显著差异。

花斑图中的中线在方框内似乎不是居中的,这表明样本略有倾斜。此外,versicolor数据包含一个离群值,而virginica数据不包含任何离群值。

另请参阅

||

相关的话题