此示例示出了如何显示和解释线性回归输出的统计信息。
加载carsmall
数据集,一个矩阵的输入数据集。
加载carsmallX = [重量,马力,加速时间];
通过使用适合的线性回归模型fitlm
。
LM = fitlm(X,MPG)
LM =线性回归模型为:y〜1个+ X1 + X2 + X3估计系数:估计SE TSTAT p值__________ _________ _________ __________(截距)47.977 3.8785 12.37 4.8957e-21 X1 -0.0065416 0.0011274 -5.8023 9.8742e-08 X2 -0.042943 0.024313-1.7663 0.08078×3 -0.011583 0.19333 -0.059913 0.95236观测数:93,自由的误差度:89均方根误差:4.09 R平方:0.752,调整R平方:0.744 F统计与常数模型:90,p-值= 7.38e-27
该模型显示包括模型公式,估计系数,并且模型汇总统计。
在显示该模型的公式,Y〜1 + X1 + X2 + X3
,对应于
。
该模型显示屏显示所估计的系数信息,该信息被存储在系数
属性。显示系数
属性。
lm.Coefficients
ANS =4×4表估计SE TSTAT p值__________ _________ _________ __________(截距)47.977 3.8785 12.37 4.8957e-21 X1 -0.0065416 0.0011274 -5.8023 9.8742e-08×2 -0.042943 0.024313 -1.7663 0.08078×3 -0.011583 0.19333 -0.059913 0.95236
该系数
财产包括这些列:
估计
- 系数估计模型中的每个对应的一词。例如,估计常数项(截距
)是47.977。
SE
- 系数的标准误差。
TSTAT
-Ťt-统计的每个系数来测试零假设,即相应的系数是零,备择,这是不同于零,因为在模型中的其他预测。注意TSTAT =估计/ SE
。例如,Ťt-统计的截距是47.977 / 3.8785 = 12.37。
p值
-p- 值对Ťt-统计假设检验的,该相应的系数等于零或没有。例如,p- 值的Ť为t-统计X2
大于0.05,所以这个词是不是在给定的模型中的其他条款的5%的显着性水平显著。
该模型的汇总统计如下:
观察数
- 行没有任何数为NaN
值。例如,观察数
93,因为MPG
数据向量有六为NaN
值和马力
数据载体具有一个为NaN
对于一个不同的观察,其中该在的行数的值X
和MPG
是100。
错误自由度
-ñ-p,其中ñ是观测值的数量,并且p在模型中的系数,包括截距的数量。例如,该模型有四个预测,所以错误自由度
是93 - 4 = 89。
均方根误差
- 均方误差,其估算的误差分布的标准偏差的平方根。
R平方
和调整后的R平方
- 确定的系数与分别确定的调节系数,。例如,R平方
值表明模型解释的变异性的约75%在响应变量MPG
。
F统计量与常模
- 检验统计量为F-test的回归模型,测试是否模型拟合显著优于仅由常数项的退化模型。
p值
-p- 值对F- 测试的模型。例如,该模型是有显著p-VALUE 7.3816e-27。
执行该模型的方差(ANOVA)分析。
方差分析(LM,'摘要')
ANS =3×5表SUMSQ DF MeanSq˚Fp值______ __ ______ __________总计6004.8 92 65.269型号4516 3 1505.3 89.987 7.3816e-27残1488.8 89 16.728
这个方差分析
显示屏显示如下。
SUMSQ
- 广场的回归模型的总和,模型
,误差项,剩余的
,总,总
。
DF
- 自由每学期的学位。自由的度
总,
为模型,
为误差项,其中
是观测值的数量,并且
在模型中的系数,包括截距的数量。例如,MPG
数据向量有六为NaN
值和数据矢量中的一个,马力
,有一为NaN
对于不同的观测值,所以总自由度是93 - 1 = 92有在模型中四个系数,所以该模型DF
是4 - 1 = 3,并且DF
对误差项93 - 4 = 89。
MeanSq
- 均方误差每个术语。注意MeanSq = SUMSQ / DF
。例如,对于误差项的均方误差为1488.8 / 89 = 16.728。此值的平方根是均方根误差
在线性回归显示,或4.09。
F
-Ft-统计值,它是相同的F统计量与常模
在线性回归显示。在这个例子中,它是89.987,而在线性回归显示此Ft-统计值向上舍入到90。
p值
-p- 值对F- 测试的模型。在这个例子中,它是7.3816e-27。
如果在回归模型中高阶项,方差分析
分区模型SUMSQ
进入部分由高阶项,其余的解释。相应的F-statistics是用于测试线性项和更高阶项作为单独的基团的意义。
如果数据包括重复,或以相同的预测器值的多个测量,那么方差分析
分区错误SUMSQ
到零件的重复和休息。相应的Ft-统计是用于通过与无模型方差估计来计算在重复比较模型残差测试缺乏-的配合。
方差分解表模型项。
方差分析(LM)
ANS =4×5表SUMSQ DF MeanSq˚Fp值________ __ ________ _________ __________ X1 563.18 1 563.18 33.667 9.8742e-08 X2 52.187 1 52.187 3.1197 0.08078×3 0.060046 0.060046 1 0.95236 0.0035895错误1488.8 89 16.728
这个方差分析
显示屏显示以下内容:
第一列 - 包括在模型条款。
SUMSQ
- 对于除恒每学期均方误差的总和。
DF
- 自由程度。在这个例子中,DF
是1模型中的每个术语和
为误差项,其中
是观测值的数量,并且
在模型中的系数,包括截距的数量。例如,DF
在这个模型中的误差项93 - 4 = 89。如果任何在模型中的变量的是一个明确的变量,则DF
该变量是其类别(类别的数目 - 1)创建的指示器变量的数目。
MeanSq
- 均方误差每个术语。注意MeanSq = SUMSQ / DF
。例如,对于误差项的均方误差为1488.8 / 89 = 16.728。
F
-F- 值对每个系数。该F- 值是平均值的平方的每个术语和均方误差,即比率,F = MeanSq(XI)/ MeanSq(错误)
。每Ft-统计有F分布,分子自由度,DF
用于对应项值,分母自由度,
。
是观测值的数量,并且
在模型系数的数量。在该示例中,每个Ft-统计有
分配。
p值
-p-VALUE用于对线性模型对应的项的系数的每个假设检验。例如,p- 值对F的t-统计系数X2
为0.08078,而不是在给定的模型中的其他条款的5%的显着性水平显著。
显示系数置信区间。
coefCI(LM)
ANS =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726
每一行中的值是上,下置信限,分别为默认的95%置信区间为系数。例如,在第一行示出了下限和上限,40.2702和55.6833,为截距, 。同样地,第二行示出的限额 等等。置信区间提供的精确度的度量为线性回归系数的估计。一个 置信区间给出了相应的回归系数将与范围 置信度。
您还可以更改的置信水平。查找系数的99%置信区间。
coefCI(LM,0.01)
ANS =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973
检验零假设所有预测器变量的系数都等于零相对于备用假设,即它们中的至少一个不同于零。
[P,F,d] = coefTest(LM)
P = 7.3816e-27
F = 89.9874
d = 3
这里,coefTest
执行F-test的假设,即所有的回归系数(除截距)是零相对于从零的至少一个是不同的,其基本上是在模型上的假说。它返回
中,p-值,F
中,Ft-统计,和d
,分子自由度。该F和t-统计p- 值是相同的,如线性回归显示的那些和方差分析
为模型。自由度是4 - 1 = 3,因为存在四个预测(包括截距)在模型中。
现在,执行第一和第二预测变量的系数的假设检验。
H = [0 1 0 0;0 0 1 0];[P,F,d] = coefTest(LM,H)
P = 5.1702e-23
F = 96.4873
d = 2
分子自由度是测试系数的数目,其值为2在这个例子。结果表明:中至少有一个 和 不同于零。