箱形图提供了对样本数据的汇总统计的可视化,并包含以下功能:
每个“盒子”的顶部和底部分别是样本的第25和75个百分位数。顶部和底部之间的距离是四分位间距。可以使用下面的命令来计算四分位数范围的值位差
.
每个框中间的线是样本中值。如果中值不在框中,则表示样本偏度。的值可以计算中值的值中位数
函数。
超出须长度的观察被标记为离群值。默认情况下,离群值是距离框顶部或底部的四分位数范围的1.5倍以上的值,但该值可以通过额外的输入参数进行调整。异常值用红色的“+”标记。
凹槽显示了样本间中值的可变性。凹槽宽度的计算,使得凹槽不重叠的箱形图(如上图所示)在5%显著性水平上有不同的中位数。显著性水平是基于正态分布的假设,但对其他分布的中值比较是相当可靠的。比较箱线图中值就像视觉假设检验,类似于t用于手段的测试。
由于箱形图比直方图显示的细节更少,所以它们对于两种分布的并排比较最有用。
加载Fisher虹膜样本数据。数据包括三种鸢尾花的萼片和花瓣的长度和宽度的测量。将花斑鸢尾的花瓣长度数据存储为s1
的花瓣长度数据为s2
.
负载fisheririss1 =量(51:100 3);s2 =量(101:150 3);
使用示例数据创建框图。在地块上包括一个缺口,并在每个盒子上标上它所代表的鸢尾物种的名称。
图箱线图((s1 s2),“缺口”,“上”,...“标签”, {“多色的”,“virginica”})
两个箱形图的缺口不重叠,说明花斑和维珍的中位花瓣长度在5%的显著水平上存在显著差异。
花斑图中的中线在方框内似乎不是居中的,这表明样本略有倾斜。此外,versicolor数据包含一个离群值,而virginica数据不包含任何离群值。