线性回归模型的差异分析
从的线性回归模型创建组件ANOVA表医院
数据集。
加载医院
数据集并创建血压模型,作为年龄和性别的函数。
加载医院TBL =表(hospital.Age,hospital.Sex,hospital.BloodPressure(:,2),......'variablenames'{'年龄'那'性别'那“血压”});tbl.sex =分类(tbl.sex);mdl = fitlm(tbl,'血压〜性+年龄^ 2')
MDL =线性回归模型:血压〜1个+年龄+性别+年龄^ 2个估计系数:估计SE TSTAT p值_________ ________ _________(截距)63.942 19.194 3.3314 0.0012275年龄0.90673 1.0442 0.86837 0.38736 3.0019 Sex_Male 1.3765 2.1808 0.031643年龄^ 2 -0.0112750.013853 -0.81389 0.41772若干意见:100,错误自由度:96均方根误差:6.83 R平方:0.0577,调整R平方:0.0283 F统计与常数模型:1.96,p值= 0.125
创建模型的方差分析表。
台=方差分析(mdl)
TBL =4×5表SUMSQ DF MeanSq˚Fp值______ __ ______ _______ ________年龄18.705 1 18.705 0.40055 0.52831性别222.09 1 222.09 4.7558 0.031643年龄^ 2 30.934 1 30.934 0.66242 0.41772错误4483.1 96 46.699
除了常数项(截距)外,该表显示了每一项的以下列:
SUMSQ.
- 平方和解释的术语。
DF.
- 自由程度。在这个例子中,DF.
模型中的每个术语为1N-P.为误差项,其中N是观测值的数量和P.在模型系数(包括截距)的数量。例如,DF.
在这个模型中的误差项100 - 4 = 96。如果模型中的任何变量是一个分类变量,则DF.
该变量是为其类别创建的指示器变量的数量(类别数量- 1)。
介绍
- 平均平方,由下式定义MeanSq = SumSq / DF
.例如,误差项,均方误差(MSE)的均方为4.4831e + 03/96 = 46.6991。
F
-Ft-统计值来测试零假设相应的系数是零,通过计算f =均衡/ MSE
, 在哪里均方误差
为均方误差。当零假设是真的时,Ft-统计如下F-分配。分子自由度是DF.
用于对应项值,分母自由度IS的N-p。在该示例中,每个F- 术语遵循A.
-分配。
p值
-P.- 值的Ft-统计值。例如,P.- value年龄
是0.5283,这意味着年龄
给出了模型中的其他术语的5%重要性水平不显着。
从线性回归模型创建一个汇总的方差分析表医院
数据集。
加载医院
数据集并创建血压模型,作为年龄和性别的函数。
加载医院TBL =表(hospital.Age,hospital.Sex,hospital.BloodPressure(:,2),......'variablenames'{'年龄'那'性别'那“血压”});tbl.sex =分类(tbl.sex);mdl = fitlm(tbl,'血压〜性+年龄^ 2')
MDL =线性回归模型:血压〜1个+年龄+性别+年龄^ 2个估计系数:估计SE TSTAT p值_________ ________ _________(截距)63.942 19.194 3.3314 0.0012275年龄0.90673 1.0442 0.86837 0.38736 3.0019 Sex_Male 1.3765 2.1808 0.031643年龄^ 2 -0.0112750.013853 -0.81389 0.41772若干意见:100,错误自由度:96均方根误差:6.83 R平方:0.0577,调整R平方:0.0283 F统计与常数模型:1.96,p值= 0.125
创建模型的方差分析汇总表。
台=方差分析(mdl,“摘要”)
TBL =7×5表SUMSQ DF MeanSq˚FP值______ ______ __ _______ ________总计4757.8 99 48.059型号274.73 3 91.577 1.961 0.12501。线性243.8 121.9 2 2.6103 0.078726。非线性30.934 1 30.934 0.66242 0.41772残余4483.1 96 46.699。缺乏适合1483.1 39 38.028 0.72253 0.85732的。纯错误3000 57 52.632
表格显示了对术语组的测试:总计
那模型
, 和剩余的
.
总计
-这一行显示了总平方和(SUMSQ.
), 自由程度 (DF.
),以及均方误差(介绍
)。注意MeanSq = SumSq / DF
.
模型
- 这行包括SUMSQ.
那DF.
那介绍
那Ft-统计值(F
), 和P.-价值 (p值
)。因为该模型包括一个非线性项(^ 2岁
),Anova.
分区正方形的和(SUMSQ.
) 的模型
分为两部分:SUMSQ.
通过线性术语解释(年龄
和性别
),SUMSQ.
由非线性术语解释(^ 2岁
)。相应的F-统计值用于检验线性项和非线性项作为单独组的显著性。非线性群由^ 2岁
只有一词,所以它具有相同的P.价值的^ 2岁
长期在组件Anova表.
剩余的
- 这行包括SUMSQ.
那DF.
那介绍
那F
, 和p值
.由于数据集包括重复,Anova.
分区残差SUMSQ.
到用于复制的部分(纯粹错误
),其余(缺乏合适的
)。为了测试缺乏配合,Anova.
计算F通过将模型残差与复制上计算的无模型方差估计进行比较来静态值。这F- 门槛显示没有缺乏适合的证据。
拟合一个包含分类预测器的线性回归模型。对分类预测器的类别重新排序,以控制模型中的参考级别。然后,用Anova.
检验分类变量的显著性。
分类预测器模型
加载Carsmall.
数据集和创建的线性回归模型MPG.
作为一个函数Model_Year
.处理数值向量Model_Year
作为分类变量,识别使用所述预测“CategoricalVars”
名称值对参数。
加载Carsmall.MDL = fitlm(Model_Year,MPG,“CategoricalVars”, 1'varnames'{“Model_Year”那'mpg'})
MDL =线性回归模型:MPG〜1个+ Model_Year估计系数:估计SE TSTAT p值________ ______ __________(截距)17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,错误自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值= 1.07E-15
显示屏中的型号公式,MPG〜1 + model_year
,对应于
那
在哪里
和
是指示变量,如果值为值Model_Year
分别为76和82。这Model_Year
变量包括三个不同的值,则可以通过使用该检查独特的
功能。
唯一(model_year)
ans =.3×170 76 82
Fitlm.
选择在最小值Model_Year
作为参考水平('70'
)并创建两个指示变量
和
.该模型仅包括两个指针变量,因为设计矩阵变成如果模型包括三个指示器变量秩亏(每个电平)和截距项。
与全指标变量模型
您可以解释模型公式MDL
作为一个模型,它有三个指标变量,没有截距项:
.
或者,您可以通过手动创建指示器变量并指定型号公式,创建一个没有截距项的指示变量的模型。
temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year(:,1);Model_Year_76 = temp_Year(:,2);Model_Year_82 = temp_Year(:,3);TBL =表(Model_Year_70,Model_Year_76,Model_Year_82,MPG);mdl = fitlm(tbl,'MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82 - 1')
MDL =线性回归模型:MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE TSTAT p值________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51的数观察:94,错误自由度:91均方根误差:5.56
在模型中选择参考级别
您可以通过在分类变量修改类别的顺序选择的参考电平。首先,创建一个分类变量年
.
年份=分类(Model_Year);
属性检查类别的顺序类别
功能。
类别(年)
ans =.3X1细胞{'70'} {'76'} {'82'}
如果你使用年
作为预测变量,那么Fitlm.
选择第一类'70'
作为参考水平。重新订购年
通过使用reordercats
功能。
Year_reordered = reordercats(一年,{“76”那'70'那'82'});类别(Year_reordered)
ans =.3X1细胞{ '76'} { '70'} { '82'}
第一类年份
是“76”
.创建的线性回归模型MPG.
作为一个函数年份
.
mdl2 = fitlm (Year_reordered MPG,'varnames'{“Model_Year”那'mpg'})
MDL2 =线性回归模型:MPG〜1个+ Model_Year估计系数:估计SE TSTAT p值________ _______ __________(截距)21.574 0.95387 22.617观测4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11号:94,错误自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值= 1.07E-15
MDL2
使用“76”
作为参考水平,包括两个指示器变量
和
.
评估分类预测
模型显示MDL2
包括A.P.- 每个术语的值以测试相应的系数是否等于零。每个P.-Value检查每个指示器变量。检查分类变量Model_Year
作为一组指示器变量,使用Anova.
.使用'成分'
(默认)选项返回组件方差分析表,其中包括模型中除常数项外的每个变量的方差分析统计数据。
方差分析(MDL2,'成分')
ans =2×5表SUMSQ DF MeanSq˚Fp值______ __ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936
组件ANOVA表包括P.- 值的Model_Year
变量小于P.-指标变量的值。
MDL
-线性回归模型对象LinearModel
目的|CompactLinearModel
目的线性回归模型对象,指定为LinearModel
对象创建通过使用Fitlm.
或者stepwiselm
,或者CompactLinearModel
对象创建通过使用紧凑的
.
sstype
-方块型的总和'H'
(默认)|1
|2
|3.
平方和键入每个术语,指定为在此表中的值之一。
价值 | 描述 |
---|---|
1 |
键入1的平方和 - 通过将术语添加到已经包括前述术语的符合的符合术语来降低剩余平方和 |
2 |
键入平方总和2 - 减少通过添加术语到包含所有其他术语的模型获得的残差平方和 |
3. |
类型3平方和的 - 减少加入这个词来包含所有其他条款的模型得到的残差平方和,但他们的影响限制服从通常的“西格玛限制”,使模型可估 |
'H' |
分层模型 - 类似于二型,但同时使用连续和分类因素来确定术语的层级 |
任何项的平方和都是通过比较两个模型来确定的。对于包含主效应但不包含交互作用的模型,值sstype
影响计算计算对不平衡数据。
假设你正在安装有两个因素及其相互作用的模型,且术语出现的顺序一种那B.那ab.让R.(·)表示方块的模型的剩余之和。所以,R.(一种那B.那ab)是拟合整个模型的剩余平方和,R.(一种)是正方形的配件的主效应的残余总和一种只有R.(1)是仅适合平均值的方块的残余和。三种方块类型如下:
学期 | 键入平方的总和1 | 键入平方的总和2 | 键入平方的总和3 |
---|---|---|---|
一种 |
R.(1) -R.(一种) |
R.(B.) -R.(一种那B.) |
R.(B.那ab) -R.(一种那B.那ab) |
B. |
R.(一种) -R.(一种那B.) |
R.(一种) -R.(一种那B.) |
R.(一种那ab) -R.(一种那B.那ab) |
ab |
R.(一种那B.) -R.(一种那B.那ab) |
R.(一种那B.) -R.(一种那B.那ab) |
R.(一种那B.) -R.(一种那B.那ab) |
类型3的平方和模型有限制。这意味着,例如,在合适的R.(B.那ab),阵列ab效果的总和被限制为0一种对于每个价值B.,在B.对于每个价值一种.
对于广场的3型和:
如果MDL
是A.CompactLinearModel
对象和回归模型是非分层的,Anova.
返回错误。
如果MDL
是A.LinearModel
对象和回归模型是非分层的,Anova.
使用效果编码时,它需要计算平方的类型3和整修模型。
如果回归模型MDL
是分层的,Anova.
计算的结果,而改装的机型。
sstype
仅适用于anovatype
是'成分'
.
资源描述
-方差分析汇总统计表方差分析汇总统计数据表,返回表。
内容资源描述
依赖于所指定的ANOVA类型anovatype
.
如果anovatype
是'成分'
, 然后资源描述
包含除常量(拦截)术语之外的模型中每个变量的ANOVA统计信息。该表包含每个变量的这些列:
列 | 描述 |
---|---|
SUMSQ. |
平方和解释的术语,根据计算 |
DF. |
自由程度
|
介绍 |
平均广场,由
|
F |
Ft-统计值来测试零假设相应的系数是零,通过计算 当零假设是真的时,Ft-统计如下F-分配。分子自由度是 |
p值 |
P.- 值的F- 典型的价值 |
例如,看到组件Anova表.
如果anovatype
是“摘要”
, 然后资源描述
包含每行分组术语的汇总统计信息。该表包含与'成分'
和这些行:
排 | 描述 |
---|---|
总计 |
总统计
|
模型 |
整个模型的统计数据
如果 |
线性 |
线性术语的统计数据
|
非线性 |
非线性项的统计
|
剩余的 |
残差统计
如果 |
缺乏合适的 |
缺的拟合统计
|
纯粹错误 |
纯误差统计
|
例如,看到摘要ANOVA表.
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。