单向方差分析- MATLAB和Simulink M万博1manbetxathWorks澳大利亚 - 万博1manbetx,s manbetx 845,万博尤文图斯

单向方差分析

介绍了单向方差分析

您可以使用函数anova1执行单向方差分析(方差分析)。单向方差分析的目的是确定数据从几组(水平)的因素有一个共同的意思。即单向方差分析可以发现不同组的一个独立的变量是否对响应变量的影响不同y。假设,医院想要确定这两个新提出的调度方法减少病人等待时间超过旧的安排预约方式。在这种情况下,自变量是调度方法,和响应变量是病人的等待时间。

单向方差分析的是一个简单的特例线性模型。单向方差分析模型的形式

$y_{我 j} = α_{j} + ε_{我 j}$

以下假设:

y_我j这是一个观察,我代表数量的观察,j代表一个不同的组(水平)的变量y。所有y_我j是独立的。
α_j代表的总体均值j集团(要求等级或治疗)。
ε_我j是随机误差,独立正态分布,与零均值和方差不变,即ε_我j~ N (0,σ²)。

这个模型也被称为意味着模型。该模型假定的列y是常数α_j加上误差分量ε_我j。方差分析有助于确定常数都是一样的。

方差分析测试的假设所有组意味着是相等的( $H_{0} : α_{1} = α_{2} = … = α_{k}$ )对备择假设,至少一组不同于其他人 $H_{1} : α_{我} \neq α_{j}$ 至少一个我和j)。anova1 (y)测试的数据列的平等意味着矩阵y,每一列是一个不同的组和相同数量的观察(例如平衡的设计)。anova1 (y组)测试组的平等意味着,中指定集团向量或矩阵中的数据y。在这种情况下,每组或列可以有不同数量的观察(例如一个不平衡的设计)。

方差分析是基于假设所有样本的数量是正态分布的。它是健壮的谦逊的违反这一假设。你可以检查常态假设视觉通过使用正常的情节(normplot)。或者,您可以使用一个统计和机器学习工具箱™函数检查常态:Anderson-Darling测试(adt),卡方拟合优度检验(chi2gof),Jarque-Bera测试(制造商jbt),或者Lilliefors测试(lillietest)。

为单向方差分析准备数据

您可以提供样本数据作为一个向量或矩阵。

如果样本数据在一个向量,y,那么你必须提供使用的分组信息集团输入变量:anova1 (y组)。
集团必须是一个数字矢量,逻辑向量,分类向量,字符数组,字符串数组,数组或单元的特征向量,用一个名称为每个元素的y。的anova1函数将y值对应于相同的值集团同一组的一部分。例如,

组时使用这个设计有不同数量的元素(不平衡方差分析)。
如果在一个矩阵样本数据,y,提供组信息是可选的。
- 如果你不指定输入变量集团,然后anova1将每一列的y作为一个单独的组,计算列的总体均值是否相等。例如,
  
  使用这种形式的设计时,每一组有相同数量的元素(平衡方差分析)。
- 如果指定的输入变量集团,然后每个元素集团代表一个组名中相应的列y。的anova1函数将列相同的组名是同一组的一部分。例如,

anova1忽略任何一个南值y。同样,如果集团包含空的或南值,anova1忽略了相应的观测y。的anova1函数执行平衡方差分析每组是否有相同数量的观察后,无视空或者函数南值。否则,anova1执行不平衡的方差分析。

执行单向方差分析

打开生活的脚本

这个例子展示了如何执行单向方差分析来确定数据从几组有一个共同的意思。

加载和显示样例数据。

负载霍格霍格

豪格=6×524日14 11 7 19 15 7 9 7 24 21 12 7 4 19日27日17日13 7 15 33 14 12 12 10 23日16 18 18 20

数据来自霍格和Ledolter(1987)研究细菌数量出货的牛奶。矩阵的列霍格代表不同的出货量。行是细菌数量从每个纸盒牛奶选择随机装运。

测试如果一些出货量比其他人有更高的计数。默认情况下,anova1返回两个数字。一个是标准的方差分析表,另一个是箱形图的数据组。

[p(资源统计]= anova1(何克);

图单向方差分析包含类型的对象uicontrol。

图包含一个坐标轴对象。坐标轴对象包含35行类型的对象。一个或多个行显示的值只使用标记

p = 1.1971 e-04

小p价值约0.0001表明,细菌的数量从不同的货物是不一样的。

你可以得到一些图形化的保证手段通过观察不同盒子的情节。然而,等级比较中位数,而不是手段。在这显示更多的信息,请参阅箱线图。

查看标准方差分析表。anova1保存的标准方差分析表作为单元阵列的输出参数资源描述。

资源描述

台=4×6单元阵列{'源'}{“党卫军”}{“df”}{‘女士’}{' F '}{'不利于> F '}{“列”}{[803.0000]}{[4]}{[200.7500]}{[9.0076]}{[1.1971 e-04]}{‘错误’}{[557.1667]}{[25]}{[22.2867]}{0 x0双}{0 x0双}{“总”}{[1.3602 e + 03]} {[29]} {0 x0双}{0 x0双}{0 x0双}

保存F统计值的变量函数。

函数=台{2、5}

函数= 9.0076

查看统计数据有必要作一个多个组两两比较的意思。anova1保存这些数据的结构统计数据。

统计数据

统计=结构体字段:gnames: x1 char [5] n:[6 6 6 6 6)来源:“anova1”意思是:[23.8333 13.3333 11.6667 9.1667 17.8333]df: 25 s: 4.7209

方差分析拒绝零假设,所有组意味着是相等的,因此您可以使用多个比较,以确定哪一组是不同于其他人。进行多重比较测试,使用函数multcompare,接受统计数据作为输入参数。在这个例子中,anova1拒绝零假设,意味着细菌计数会有四次出货是相等的,即, $H_{0} : μ_{1} = μ_{2} = μ_{3} = μ_{4}$ 。

执行多重比较检验,以确定哪些货物是不同的比其他人而言意味着细菌计数。

结果= multcompare(统计);

图意味着包含一个坐标轴对象的多重比较。坐标轴对象与标题点击您想要测试,包含3组意味着显著不同组1包含11线类型的对象。一个或多个行显示的值只使用标记

图中还显示了同样的结果。蓝色栏显示了第一组的比较区间的意思是,不重叠的时间间隔比较第二,第三,第四组意味着,显示为红色。的均值的比较间隔第五小组,以灰色显示,与第一组的比较间隔的意思。因此,意味着第一和第五组没有显著不同。

表中显示多重比较结果。

台= array2table(结果,“VariableNames”,…(“组”,“B组”,“下限”,“a - b”,“上限”,“假定值”])

台=10×6表A组B组A - B上限下限假定值累积_________ ___________ ___________ _____ 1 2 2.4953 10.5 18.505 0.0059332 1 3 4 4.1619 12.167 20.171 0.0012925 1 0.21195 14.005 6.6619 -2.0047 14.667 22.671 0.0001262 1 5 6 4 2 3 -6.3381 1.6667 9.6714 0.97193 -3.8381 4.1667 12.171 0.55436 - 2 5 -12.505 -4.5 3.5047 0.48062 3 4 -5.5047 2.5 10.505 0.88757 -14.171 -6.1667 1.8381 0.19049 4 5 -16.671 -8.6667 -0.66193 0.029175

前两列显示哪一组意味着相互比较。例如,第一行比较的组1和2。最后一列显示了p值的测试。的p值0.0059,0.0013,和0.0001表明,意味着从第一批牛奶中的细菌数量是不同的第二,第三,第四次出货。的p价值0.0292表示的意思是牛奶中的细菌数量从第四批不同的第五。手术失败拒绝假设另一组意味着不同于彼此。

数学细节

方差分析测试组的差异意味着分区总变异的数据分为两个部分:

组的变化意味着从整体的意思,也就是说, ${\bar{y}}_{。 j} - {\bar{y}}_{。。}$ (组)之间的差异 ${\bar{y}}_{。 j}$ 样本均值的集团吗j, ${\bar{y}}_{。。}$ 是总体样本均值。
变化的观察每组的组平均估计, $y_{我 j} - {\bar{y}}_{。 j}$ (组内变异)。

换句话说,方差分析分区总平方和(SST)平方和由于组间效应(SSR)和(SSE)的平方之和错误。

$\underset{年代年代 T}{\underset{︸}{\sum_{我} \sum_{j} {(y_{我 j} - {\bar{y}}_{。。})}^{2}}} = \underset{年代年代 R}{\underset{︸}{\sum_{j} n_{j} {({\bar{y}}_{。 j} - {\bar{y}}_{。。})}^{2}}} + \underset{年代年代 E}{\underset{︸}{\sum_{我} \sum_{j} {(y_{我 j} - {\bar{y}}_{。 j})}^{2}}},$

在哪里n_j的样本大小是jth集团,j= 1,2,…,k。

然后方差分析比较组内变异组之间的差异。如果变化之比法类内变化是相当高的,然后你就可以得出结论,该集团意味着明显不同。你可以测量用一个有一个的检验统计量F分布(k- 1,N- - - - - -k自由度:

$F = \frac{\frac{年代年代 R}{k - 1}}{\frac{年代年代 E}{N - k}} = \frac{米年代 R}{米年代 E} ~ F_{k - 1, N - k},$

在哪里MSR是均方治疗,均方误差均方误差,k组的数量,N是观察的总数。如果p价值的F统计量小于显著性水平,然后测试拒绝零假设,所有组意味着平等和得出结论,至少一个组的意思是不同于其他人。最常见的重要性水平是0.05和0.01。

方差分析表

方差分析表捕捉源模型中的变化,F统计测试的意义这个变化,p价值决定这个变化的重要性。的p返回的值anova1对随机干扰取决于假设ε_我j在模型方程。为p值是正确的,这些干扰需要独立,正态分布,方差不变。标准方差分析表有这种形式:

anova1返回标准方差分析表作为一个单元阵列与6列。

列	定义
`源`	源的变化。
`党卫军`	由于每个源平方和。
`df`	自由度与每个源有关。假设N观察和总数吗k是团体的数量。然后,N- - - - - -k是群体内部自由度(`错误`),k- 1是团体之间的自由度(`列`),N- 1是总自由度:N- 1 = (N- - - - - -k)+ (k- 1)。
`女士`	意味着每个源广场,这是比例`SS / df`。
`F`	F统计,意思是正方形的比例。
`概率F >`	p值,也就是概率F统计可以取一个值大于计算检验统计量的值。`anova1`这个概率来自的运作F分布。

方差分析表的行显示数据的可变性,除以源。

行(源)	定义
`组`或`列`	变化造成的差异意味着(可变性之间的组)
`错误`	变化将在每组数据之间的差异和集团(可变性在组)
`总`	总变化

引用

[1],c·f·J。和m .石漠。实验:规划、分析和参数优化设计,2000年。

[2]净,J。,米。H。Kutner, C. J. Nachtsheim, and W. Wasserman. 4th ed.应用线性统计模型。欧文出版社,1996年。

另请参阅

anova1|multcompare|kruskalwallis