单向方差分析

介绍单向方差分析

您可以使用统计和机器学习工具箱™功能anova1执行方差分析(ANOVA)的单向分析。单因素方差分析的目的是确定的因素的几组(水平)数据是否有共同的均值。也就是说,单因素方差分析,您可以找出一个自变量的不同群体是否有响应变量有不同的影响ÿ。假设,一家医院想要确定这两种新提出的预约安排方法是否比旧的预约安排方式更能减少病人等待时间。在这种情况下,自变量为调度方法,响应变量为患者的等待时间。

单因素方差分析是对一个简单的特例线性模型。该模型的单因素方差分析的形式是

ÿ 一世 Ĵ = α Ĵ + ε 一世 Ĵ

用以下假设:

  • ÿ一世Ĵ是一个观察,在哪个一世表示观测数量,并且Ĵ表示预测变量的一个不同的组(电平)ÿ。所有ÿ一世Ĵ是独立的。

  • αĴ的总体均值Ĵ个组(水平或处理)。

  • ε一世Ĵ是随机误差,独立和正态分布的,均值为零,方差恒定,即ε一世Ĵ〜N(0,σ2)。

这种模式也被称为手段模型。模型假设的列ÿ是常数αĴ加上误差分量ε一世Ĵ。方差分析有助于确定常数都是一样的。

ANOVA测试假设,即所有组平均值是相等的相对于另一种假设是至少一个基团是不同于其他。

H 0 α 1 = α 2 = = α ķ H 1 并非所有的群体手段都是平等的

的anoval(y)的测试的柱装置,用于在矩阵中的数据的平等ÿ,其中每列是不同的基团,并且具有相同数目的观测值(即,平衡设计)。的anoval(Y,基团)测试组装置的平等,在指定的,用于向量或矩阵中的数据ÿ。在这种情况下,每个组或列可以有不同数量的观察值(即。,一个不平衡的设计)。

方差分析是基于假设所有样本总体是正态分布的。它被称为是稳健适度违反这一假设。您可以通过使用一种常态情节目视检查常态假设(normplot)。或者,您可以使用统计和机器学习工具箱中的一个函数来检查是否正常:安德森-达林测试(ADTEST),配合测试的卡方优度(chi2gof),则Jarque-Bera检验(jbtest),或者里尔福斯测试(lillietest)。

为单因素方差分析准备数据

您可以以向量或矩阵的形式提供示例数据。

  • 如果样本数据是在载体中,ÿ,则必须使用提供分组信息输入变量:的anoval(Y,基团)

    必须是数字向量、逻辑向量、分类向量、字符数组、字符串数组或字符向量的单元数组,?的每个元素有一个名称ÿ。该anova1函数将ÿ对应于相同的值的值作为同一组的一部分。例如,

    当组有不同数量的元素时使用这种设计(不平衡方差分析)。

  • 如果样本数据是矩阵,ÿ,提供组信息是可选的。

    • 如果你不指定输入变量, 然后anova1处理的每一列ÿ作为单独的组,并计算各列的总体均值是否相等。例如,

      使用这种形式的设计时每个组具有相同数量的元素(平衡ANOVA)的。

    • 如果你指定了输入变量,然后每个元素表示用于在相应的列中的组名ÿ。该anova1函数将具有相同组名的列视为同一组的一部分。例如,

anova1忽略任何一个为NaN价值观ÿ。另外,如果包含空的或为NaN值,anova1忽略相应的观察ÿ。该anova1功能执行平衡ANOVA如果每个组具有相同数目的观测值的函数忽略清空后或为NaN值。除此以外,anova1执行不平衡的方差分析。

执行单向方差分析

这个例子展示了如何执行单向方差分析来确定来自几个组的数据是否有一个共同的平均值。

加载并显示示例数据。

加载霍格霍格
豪格=6×524 14 11 7 19 15 7 9 7 24 21 12 7 4 19 27 17 13 7 15 33 14 12 12 10 23 16 18 18 20

数据来自Hogg和Ledolter(1987)对牛奶装运中细菌计数的研究。矩阵的列霍格代表不同的出货量。行是从每次装运随机选择的牛奶盒细菌计数。

如果测试出货量一些有比别人更高的计数。默认,anova1返回两个数字。一种是标准ANOVA表,并且通过基团中的另一个为数据的盒形图。

[P,TBL,统计] =的anoval(霍格);

p
P = 1.1971e-04

p- 值约0.0001表明从不同的出货量细菌数量是不一样的。

你可以得到一些图形化的保证,手段通过查看箱线图不同。该缺口,但是,比较中位数,而不是手段。此屏幕上的更多信息,请参阅箱线图

查看标准方差分析表。anova1保存标准ANOVA表作为输出参数的单元阵列TBL

TBL
TBL =4×6单元阵列列1至5 { '源'} { 'SS'} { 'DF'} { 'MS'} { 'F'} { '列'} {[803.0000]} {[4]} {[200.7500]} {[9.0076]} { '错误'} {[557.1667]} {[25]} {[22.2867]} {为0x0双} { '总计'} {[1.3602e + 03]} {[29]} {为0x0双}{为0x0双}第6列{ '习题> F'} {[1.1971e-04]} {为0x0双} {为0x0双}

保存F在变量值t-统计FSTAT

函数=台{2、5}
函数= 9.0076

查看必要使组手段的多重两两比较的统计信息。anova1将这些统计信息保存在结构中统计数据

统计数据
统计=结构体字段:来源:'anova1'表示:[23.8333 13.3333 11.6667 9.1667 17.8333]df: 25 s: 4.7209

ANOVA拒绝零假设,所有组的意思是相等的,所以你可以使用多重比较来确定哪个组的意思是不同于其他。要执行多个比较测试,请使用该函数multcompare,它接受统计数据作为输入参数。在这个例子中,anova1拒绝所有四次装运的平均细菌计数相等的原假设,即, H 0 μ 1 = μ 2 = μ 3 = μ 4

执行多重比较试验,以确定哪批货物在平均细菌数量方面与其他货物不同。

multcompare(统计)

ans =10×61.0000 2.0000 2.4953 10.5000 18.5047 0.0059 1.0000 3.0000 4.1619 12.1667 20.1714 0.0013 1.0000 4.0000 6.6619 14.6667 22.6714 0.0001 1.0000 5.0000 -2.0047 6.0000 14.0047 0.2119 2.0000 3.0000 -6.3381 1.6667 9.6714 0.9719 2.0000 4.0000 -3.8381 4.1667 12.1714 0.5544 2.0000 5.0000 -12.5047 -4.5000 3.5047 0.4806 3.0000 4.0000  -5.5047 2.5000 10.5047 0.8876 3.0000 5.0000 -14.1714 -6.1667 1.8381 0.1905 4.0000 5.0000 -16.6714 -8.6667 -0.6619 0.0292

前两列显示哪些组装置被相互比较。例如,第一行对于比较组1和2的最后一栏示出了的装置p- 值的测试。该p- 值0.0059,0.0013和0.0001表明,在从所述第一装运牛奶的平均细菌计数是从所述第二,第三和第四出货量的不同。该p- 值0.0292表明从第四装运牛奶的平均细菌数是从第五的有所不同。该过程失败,以拒绝另一组装置是彼此不同的假设。

该图还显示了同样的结果。蓝条示出了用于第一组平均值的比较区间,其重叠不与比较的间隔为第二,第三和第四组的装置,以红色显示。对于平均第五组的比较的时间间隔,以灰色显示,与对第一组平均值的比较区间重叠。因此,对于第一和第五组的组手段并不彼此显著不同。

数学细节

对组内差异的ANOVA检验意味着通过将数据中的总变异划分为两个组成部分:

  • 组均值与总均值之差,即: ÿ ¯ Ĵ ÿ ¯ 。。 (组间差异),其中 ÿ ¯ Ĵ 是基团的样本均值Ĵ, ÿ ¯ 。。 为总体样本均值。

  • 每一组观察值的变化与该组的平均值估计, ÿ 一世 Ĵ ÿ ¯ Ĵ (组内变异)。

换句话说,ANOVA分隔平方总和(SST)到由于误差平方和(SSE)的组之间的效应(SSR)和总和的平方和。

一世 Ĵ ÿ 一世 Ĵ ÿ ¯ 。。 2 小号 小号 Ť = Ĵ ñ Ĵ ÿ ¯ Ĵ ÿ ¯ 。。 2 小号 小号 [R + 一世 Ĵ ÿ 一世 Ĵ ÿ ¯ Ĵ 2 小号 小号 Ë

在哪里ñĴ的样本容量是多少Ĵth集团,Ĵ= 1,2,…,ķ

然后ANOVA进行比较,以组内的变化组之间的变化。如果组内变化到组间差异的比率显著高,那么可以得出结论,该组装置是从彼此不同显著。您可以使用具有一个检验统计量测量这个F分布(ķ- 1,ñ-ķ)自由度:

F = 小号 小号 [R ķ 1 小号 小号 Ë ñ ķ = 中号 小号 [R 中号 小号 Ë F ķ 1 ñ ķ

在哪里MSR是均方处理,MSE是均方误差,ķ是组数,和ñ为观测的总次数。如果p价值的Ft-统计比显着性水平更小,则检验拒绝零假设,即所有组平均值是相等的,并得出结论,该组装置中的至少一个是从其他不同。最常见的显着性水平分别为0.05和0.01。

方差分析表

方差分析表由源捕捉变异的模式,Ft-统计测试这种变化的意义,和p-VALUE的决定这种变化的意义。该p返回的值anova1取决于随机扰动的假设ε一世Ĵ在模型方程中。为p- 值是正确的,这些干扰必须是独立的,正态分布,并有恒定的变化。该标准方差分析表有以下形式:

anova1返回标准ANOVA表作为与六列的单元阵列。

定义
资源 变异的来源。
党卫军 每个源的平方和。
DF 自由度与每个源相关联。假设ñ是观测的总数和ķ是组的数目。然后,ñ-ķ为组内自由度(错误),ķ- 1为组间自由度(),ñ- 1为总自由度:ñ- 1 =(ñ-ķ)+(ķ- 1)。
女士 对于每个源,这是比均方SS / df
F Ft-统计,其是均方的比率。
概率>˚F p- 值,这是该概率Ft-统计可以采取比所计算的检验统计量的值大的值。anova1由的cdf推导出这个概率F-分配。

ANOVA表的行示出了在数据中的可变性,由源分开。

行(来源) 定义
由于组间差异造成的差异性(差异性)之间组)
错误 变异性由于数据之间的每个组和组平均值的差异(变化组)
总变异

参考

[1]吴,C.F。J.,和M.滨。实验:规划、分析、参数设计优化,2000。

奈特,J., M. H.库特纳,C. J.纳奇谢姆和W.沃瑟曼。第四版。应用线性统计模型。欧文出版社,1996年。

也可以看看

||

相关的话题