主要内容

Anova.

线性回归模型的差异分析

描述

例子

资源描述=方差分析(MDL返回带有组件ANOVA统计信息的表。

例子

资源描述=方差分析(MDLanovatype返回指定类型的方差分析统计信息anovatype.例如,指定anovatype作为'成分'(默认)返​​回一个表组件ANOVA统计,或指定anovatype作为“摘要”返回与总结ANOVA统计数据的表格。

资源描述=方差分析(MDL,'成分',sstype使用指定类型的正方和计算组件ANOVA统计信息。

例子

全部收缩

从的线性回归模型创建组件ANOVA表医院数据集。

加载医院数据集并创建血压模型,作为年龄和性别的函数。

加载医院TBL =表(hospital.Age,hospital.Sex,hospital.BloodPressure(:,2),......'variablenames'{'年龄''性别'“血压”});tbl.sex =分类(tbl.sex);mdl = fitlm(tbl,'血压〜性+年龄^ 2'
MDL =线性回归模型:血压〜1个+年龄+性别+年龄^ 2个估计系数:估计SE TSTAT p值_________ ________ _________(截距)63.942 19.194 3.3314 0.0012275年龄0.90673 1.0442 0.86837 0.38736 3.0019 Sex_Male 1.3765 2.1808 0.031643年龄^ 2 -0.0112750.013853 -0.81389 0.41772若干意见:100,错误自由度:96均方根误差:6.83 R平方:0.0577,调整R平方:0.0283 F统计与常数模型:1.96,p值= 0.125

创建模型的方差分析表。

台=方差分析(mdl)
TBL =4×5表SUMSQ DF MeanSq˚Fp值______ __ ______ _______ ________年龄18.705 1 18.705 0.40055 0.52831性别222.09 1 222.09 4.7558 0.031643年龄^ 2 30.934 1 30.934 0.66242 0.41772错误4483.1 96 46.699

除了常数项(截距)外,该表显示了每一项的以下列:

  • SUMSQ.- 平方和解释的术语。

  • DF.- 自由程度。在这个例子中,DF.模型中的每个术语为1N-P.为误差项,其中N是观测值的数量和P.在模型系数(包括截距)的数量。例如,DF.在这个模型中的误差项100 - 4 = 96。如果模型中的任何变量是一个分类变量,则DF.该变量是为其类别创建的指示器变量的数量(类别数量- 1)。

  • 介绍- 平均平方,由下式定义MeanSq = SumSq / DF.例如,误差项,均方误差(MSE)的均方为4.4831e + 03/96 = 46.6991。

  • F-Ft-统计值来测试零假设相应的系数是零,通过计算f =均衡/ MSE, 在哪里均方误差为均方误差。当零假设是真的时,Ft-统计如下F-分配。分子自由度是DF.用于对应项值,分母自由度IS的N-p。在该示例中,每个F- 术语遵循A. F 1 9. 6. -分配。

  • p值-P.- 值的Ft-统计值。例如,P.- value年龄是0.5283,这意味着年龄给出了模型中的其他术语的5%重要性水平不显着。

从线性回归模型创建一个汇总的方差分析表医院数据集。

加载医院数据集并创建血压模型,作为年龄和性别的函数。

加载医院TBL =表(hospital.Age,hospital.Sex,hospital.BloodPressure(:,2),......'variablenames'{'年龄''性别'“血压”});tbl.sex =分类(tbl.sex);mdl = fitlm(tbl,'血压〜性+年龄^ 2'
MDL =线性回归模型:血压〜1个+年龄+性别+年龄^ 2个估计系数:估计SE TSTAT p值_________ ________ _________(截距)63.942 19.194 3.3314 0.0012275年龄0.90673 1.0442 0.86837 0.38736 3.0019 Sex_Male 1.3765 2.1808 0.031643年龄^ 2 -0.0112750.013853 -0.81389 0.41772若干意见:100,错误自由度:96均方根误差:6.83 R平方:0.0577,调整R平方:0.0283 F统计与常数模型:1.96,p值= 0.125

创建模型的方差分析汇总表。

台=方差分析(mdl,“摘要”
TBL =7×5表SUMSQ DF MeanSq˚FP值______ ______ __ _______ ________总计4757.8 99 48.059型号274.73 3 91.577 1.961 0.12501。线性243.8 121.9 2 2.6103 0.078726。非线性30.934 1 30.934 0.66242 0.41772残余4483.1 96 46.699。缺乏适合1483.1 39 38.028 0.72253 0.85732的。纯错误3000 57 52.632

表格显示了对术语组的测试:总计模型, 和剩余的

  • 总计-这一行显示了总平方和(SUMSQ.), 自由程度 (DF.),以及均方误差(介绍)。注意MeanSq = SumSq / DF

  • 模型- 这行包括SUMSQ.DF.介绍Ft-统计值(F), 和P.-价值 (p值)。因为该模型包括一个非线性项(^ 2岁),Anova.分区正方形的和(SUMSQ.) 的模型分为两部分:SUMSQ.通过线性术语解释(年龄性别),SUMSQ.由非线性术语解释(^ 2岁)。相应的F-统计值用于检验线性项和非线性项作为单独组的显著性。非线性群由^ 2岁只有一词,所以它具有相同的P.价值的^ 2岁长期在组件Anova表

  • 剩余的- 这行包括SUMSQ.DF.介绍F, 和p值.由于数据集包括重复,Anova.分区残差SUMSQ.到用于复制的部分(纯粹错误),其余(缺乏合适的)。为了测试缺乏配合,Anova.计算F通过将模型残差与复制上计算的无模型方差估计进行比较来静态值。这F- 门槛显示没有缺乏适合的证据。

拟合一个包含分类预测器的线性回归模型。对分类预测器的类别重新排序,以控制模型中的参考级别。然后,用Anova.检验分类变量的显著性。

分类预测器模型

加载Carsmall.数据集和创建的线性回归模型MPG.作为一个函数Model_Year.处理数值向量Model_Year作为分类变量,识别使用所述预测“CategoricalVars”名称值对参数。

加载Carsmall.MDL = fitlm(Model_Year,MPG,“CategoricalVars”, 1'varnames'{“Model_Year”'mpg'})
MDL =线性回归模型:MPG〜1个+ Model_Year估计系数:估计SE TSTAT p值________ ______ __________(截距)17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,错误自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值= 1.07E-15

显示屏中的型号公式,MPG〜1 + model_year,对应于

MPG. = β 0. + β 1 Ι = 76. + β 2 Ι = 82. + ϵ

在哪里 Ι = 76. Ι = 82. 是指示变量,如果值为值Model_Year分别为76和82。这Model_Year变量包括三个不同的值,则可以通过使用该检查独特的功能。

唯一(model_year)
ans =.3×170 76 82

Fitlm.选择在最小值Model_Year作为参考水平('70')并创建两个指示变量 Ι = 76. Ι = 82. .该模型仅包括两个指针变量,因为设计矩阵变成如果模型包括三个指示器变量秩亏(每个电平)和截距项。

与全指标变量模型

您可以解释模型公式MDL作为一个模型,它有三个指标变量,没有截距项:

y = β 0. Ι X 1 = 70 + β 0. + β 1 Ι X 1 = 76. + β 0. + β 2 Ι X 2 = 82. + ϵ

或者,您可以通过手动创建指示器变量并指定型号公式,创建一个没有截距项的指示变量的模型。

temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year(:,1);Model_Year_76 = temp_Year(:,2);Model_Year_82 = temp_Year(:,3);TBL =表(Model_Year_70,Model_Year_76,Model_Year_82,MPG);mdl = fitlm(tbl,'MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82  -  1'
MDL =线性回归模型:MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE TSTAT p值________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51的数观察:94,错误自由度:91均方根误差:5.56

在模型中选择参考级别

您可以通过在分类变量修改类别的顺序选择的参考电平。首先,创建一个分类变量

年份=分类(Model_Year);

属性检查类别的顺序类别功能。

类别(年)
ans =.3X1细胞{'70'} {'76'} {'82'}

如果你使用作为预测变量,那么Fitlm.选择第一类'70'作为参考水平。重新订购通过使用reordercats功能。

Year_reordered = reordercats(一年,{“76”'70''82'});类别(Year_reordered)
ans =.3X1细胞{ '76'} { '70'} { '82'}

第一类年份“76”.创建的线性回归模型MPG.作为一个函数年份

mdl2 = fitlm (Year_reordered MPG,'varnames'{“Model_Year”'mpg'})
MDL2 =线性回归模型:MPG〜1个+ Model_Year估计系数:估计SE TSTAT p值________ _______ __________(截距)21.574 0.95387 22.617观测4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11号:94,错误自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值= 1.07E-15

MDL2使用“76”作为参考水平,包括两个指示器变量 Ι = 70 Ι = 82.

评估分类预测

模型显示MDL2包括A.P.- 每个术语的值以测试相应的系数是否等于零。每个P.-Value检查每个指示器变量。检查分类变量Model_Year作为一组指示器变量,使用Anova..使用'成分'(默认)选项返回组件方差分析表,其中包括模型中除常数项外的每个变量的方差分析统计数据。

方差分析(MDL2,'成分'
ans =2×5表SUMSQ DF MeanSq˚Fp值______ __ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936

组件ANOVA表包括P.- 值的Model_Year变量小于P.-指标变量的值。

输入参数

全部收缩

线性回归模型对象,指定为LinearModel对象创建通过使用Fitlm.或者stepwiselm,或者CompactLinearModel对象创建通过使用紧凑的

ANOVA类型,指定为其中一个值:

  • '成分'-Anova.返回的表资源描述用ANOVA统计除了常​​数项的模型中的每个变量。

  • “摘要”-Anova.返回的表资源描述对分组变量和整个模型进行汇总方差分析统计。

有关详细信息,请参阅资源描述输出参数描述。

平方和键入每个术语,指定为在此表中的值之一。

价值 描述
1 键入1的平方和 - 通过将术语添加到已经包括前述术语的符合的符合术语来降低剩余平方和
2 键入平方总和2 - 减少通过添加术语到包含所有其他术语的模型获得的残差平方和
3. 类型3平方和的 - 减少加入这个词来包含所有其他条款的模型得到的残差平方和,但他们的影响限制服从通常的“西格玛限制”,使模型可估
'H' 分层模型 - 类似于二型,但同时使用连续和分类因素来确定术语的层级

任何项的平方和都是通过比较两个模型来确定的。对于包含主效应但不包含交互作用的模型,值sstype影响计算计算对不平衡数据。

假设你正在安装有两个因素及其相互作用的模型,且术语出现的顺序一种B.ab.让R.(·)表示方块的模型的剩余之和。所以,R.一种B.ab)是拟合整个模型的剩余平方和,R.一种)是正方形的配件的主效应的残余总和一种只有R.(1)是仅适合平均值的方块的残余和。三种方块类型如下:

学期 键入平方的总和1 键入平方的总和2 键入平方的总和3

一种

R.(1) -R.一种

R.B.) -R.一种B.

R.B.ab) -R.一种B.ab

B.

R.一种) -R.一种B.

R.一种) -R.一种B.

R.一种ab) -R.一种B.ab

ab

R.一种B.) -R.一种B.ab

R.一种B.) -R.一种B.ab

R.一种B.) -R.一种B.ab

类型3的平方和模型有限制。这意味着,例如,在合适的R.B.ab),阵列ab效果的总和被限制为0一种对于每个价值B.,在B.对于每个价值一种

对于广场的3型和:

  • 如果MDL是A.CompactLinearModel对象和回归模型是非分层的,Anova.返回错误。

  • 如果MDL是A.LinearModel对象和回归模型是非分层的,Anova.使用效果编码时,它需要计算平方的类型3和整修模型。

  • 如果回归模型MDL是分层的,Anova.计算的结果,而改装的机型。

sstype仅适用于anovatype'成分'

输出参数

全部收缩

方差分析汇总统计数据表,返回表。

内容资源描述依赖于所指定的ANOVA类型anovatype

  • 如果anovatype'成分', 然后资源描述包含除常量(拦截)术语之外的模型中每个变量的ANOVA统计信息。该表包含每个变量的这些列:

    描述
    SUMSQ.

    平方和解释的术语,根据计算sstype

    DF.

    自由程度

    • DF.数值变量的值为1。

    • DF.分类变量是为类别创建的指示变量数(类别 - 1)。注意资源描述包含一个行的每个分类变量,而不是一列用于每个指示器变量作为模型中的显示。用Anova.测试一个分类变量作为一组指示器变量。

    • DF.的误差项是N-P., 在哪里N是观测值的数量和P.为模型中系数的个数。

    介绍

    平均广场,由介绍=SUMSQ./DF.

    介绍对于误差项是均方误差(MSE)。

    F

    Ft-统计值来测试零假设相应的系数是零,通过计算F=介绍/均方误差

    当零假设是真的时,Ft-统计如下F-分配。分子自由度是DF.用于对应项值,分母自由度IS的N-P.

    p值

    P.- 值的F- 典型的价值

    例如,看到组件Anova表

  • 如果anovatype“摘要”, 然后资源描述包含每行分组术语的汇总统计信息。该表包含与'成分'和这些行:

    描述
    总计

    总统计

    • SUMSQ.- 总线总和,这是响应周围的平均值的平方偏差之和

    • DF.- 的自由度之和模型剩余的

    模型

    整个模型的统计数据

    • SUMSQ.- 平方模型总和,该围绕响应平均值的拟合值的偏差的平方的总和。

    • Fp值-这些值提供了一个测试,是否模型作为一个整体比一个只有常数项的退化模型更适合。

    如果MDL仅包括线性术语,然后Anova.不分解模型进入线性非线性

    线性

    线性术语的统计数据

    • SUMSQ.- 平方和为线性项,这是正方形的模型之和的平方为非线性项的总和之间的差。

    • Fp值-这些值提供了一个测试,是否只有线性项的模型比只有常数项的退化模型更适合。Anova.使用基于完整模型的均方误差来计算F- value,所以F- 通过丢弃非线性术语并重复测试而获得的值与此行中的值不同。

    非线性

    非线性项的统计

    • SUMSQ.- 非线性(高阶或相互作用)术语的平方和,这是通过仅保持线性术语和丢弃所有非线性术语来获得的剩余平方和的增加。

    • Fp值-这些值提供了一个测试,是否完整的模型比只包含线性项的更小的模型更适合。

    剩余的

    残差统计

    • SUMSQ.-残差平方和,即残差值平方和

    • 介绍-均方误差,用于计算F- 术语值模型线性, 和非线性

    如果MDL是一个完整的LinearModel然后,对象和示例数据包含复制(分享相同预测值值的多个观察)Anova.将剩余平方和分解成复制观察的平方和(缺乏合适的)和正方形的剩余之和(纯粹错误)。

    缺乏合适的

    缺的拟合统计

    • SUMSQ.- 平方和由于缺乏合适的,其是正方形的剩余之和的平方的总和的复制之间的差别。

    • Fp值- 这Ft-统计值是配合缺乏-的-的比率介绍纯粹的错误介绍.该比率通过测量残差的变异大于复制的变异来提供偏差的测试。一个低P.-value表示向模型中添加额外的条件可以提高拟合程度。

    纯粹错误

    纯误差统计

    • SUMSQ.- 平方复制总和,通过找到具有相同预测器值的点的集合,计算每个集合内的平方偏差的围绕平均值的总和,以及汇集所计算的值获得

    • 介绍- 响应的无模型纯误差方差估计

    例如,看到摘要ANOVA表

替代功能

更完整的方差分析统计可在ANOVA1anova2, 和anovan功能。

扩展能力

在R2012A介绍