선형회귀결과해석하기

이예제에서는선형회귀결과출력되는통계량을표시하고해석하는방법을보여줍니다。

선형회귀모델피팅하기

행렬입력데이터세트인carsmall데이터세트를불러옵니다。

加载carsmallX = [重量，马力，加速时间];

fitlm을사용하여선형회귀모델을피팅합니다。

LM = fitlm（X，MPG）

LM =线性回归模型为：y〜1个+ X1 + X2 + X3估计系数：估计SE TSTAT p值__________ _________ _________ __________（截距）47.977 3.8785 12.37 4.8957e-21 X1 -0.0065416 0.0011274 -5.8023 9.8742e-08 X2 -0.042943 0.024313-1.7663 0.08078×3 -0.011583 0.19333 -0.059913 0.95236观测数：93，自由的误差度：89均方根误差：4.09 R平方：0.752，调整R平方：0.744 F统计与常数模型：90，p-值= 7.38e-27

모델표시화면에모델식，추정된계수및모델요약통계량이포함됩니다。

표시된모델식Y〜1 + X1 + X2 + X3은 $ÿ = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} + ε$ 에해당합니다。

모델표시화면에系数속성에저장된，추정된계수정보가표시됩니다。系数속성을표시합니다。

lm.Coefficients

ANS =4×4表估计SE TSTAT p值__________ _________ _________ __________（截距）47.977 3.8785 12.37 4.8957e-21 X1 -0.0065416 0.0011274 -5.8023 9.8742e-08×2 -0.042943 0.024313 -1.7663 0.08078×3 -0.011583 0.19333 -0.059913 0.95236

系数속성은다음과같은열을포함합니다。

估计- 모델에서각각의대응되는항에대한계수추정값입니다。예를들어，상수항（截距）에대한추정값은47.977입니다。
SE- 계수의표준오차입니다。
TSTAT- 모델에주어진다른예측변수를상정한경우， '대응하는계수가0이아니다' 는대립가설에대해 '계수가0이다' 는귀무가설을검정하는데사용된각계수에대한Ť- 통계량입니다。참고로，TSTAT =估计/ SE입니다。예를들어，절편에대한Ť- 통계량은47.977 / 3.8785 = 12.37입니다。
p值- 대응하는계수가0인지아니면0이아닌지를검정하는가설에대한Ť- 통계량의p- 값입니다。예를들어，X2에대한Ť- 통계량의p- 값은0.05보다크므로모델의다른항을고려할때이항은5％유의수준에서유의미하지않습니다。

모델의요약통계량은다음과같습니다。

观察数-为NaN값을포함하지않는행개수입니다。예를들어，X와MPG의행개수는100개인데MPG데이터벡터에为NaN값이6개있고马力데이터벡터에다른관측값에대한为NaN값이1개있기때문에观察数는93입니다。
错误自由度-ñ-p이며，여기서ñ은관측값의개수이고p는절편을포함하여모델에포함된계수의개수입니다。예를들어，이모델은4개의예측변수를가지므로错误自由度은93 - 4 = 89입니다。
均方根误差- 평균제곱오차의제곱근으로，오차분포의표준편차를추정합니다。
R平方및调整后的R平方- 각각결정계수와수정된결정계수를나타냅니다。예를들어，R平方값은모델이응답변수MPG의변동성의약75％를설명한다는것을나타냅니다。
F统计量与常模- 회귀모델에대한F- 검정의검정통계량으로，이모델이상수항만으로구성된퇴화모델보다훨씬더잘피팅되는지여부를검정합니다。
p值- 모델에대한F- 검정의p- 값입니다。예를들어，이모델은p- 값이7.3816e-27인경우유의미합니다。

분산분석（ANOVA）

모델에대한분산분석（ANOVA）을수행합니다。

方差分析（LM，'摘要'）

ANS =3×5表SUMSQ DF MeanSq˚Fp值______ __ ______ __________总计6004.8 92 65.269型号4516 3 1505.3 89.987 7.3816e-27残1488.8 89 16.728

이方差分析결과는다음을표시합니다。

SUMSQ- 회귀모델模型，오차항剩余的，총계总에대한제곱의합입니다。
DF- 각항에대한자유도입니다。자유도는총계의경우 $ñ - 1$ 이고，모델의경우 $p - 1$ 이며，오차항의경우 $ñ - p$ 입니다。여기서 $ñ$ 은관측값개수이고 $p$ 는절편을포함하여모델에포함된계수의개수입니다。예를들어，MPG데이터벡터에는6개의为NaN값이있고데이터벡터중하나인马力는다른관측값에대해하나의为NaN값을가지기때문에총자유도는93 - 1 = 92입니다。모델에는4개의계수가있으므로모델DF는4 - 1 = 3이고오차항에대한DF는93 - 4 = 89입니다。
MeanSq- 각항에대한평균제곱오차입니다。참고로，MeanSq = SUMSQ / DF입니다。예를들어，오차항에대한평균제곱오차는1488.8 / 89 = 16.728입니다。이값의제곱근은선형회귀표시화면의均方根误差이며4.09입니다。
F-F- 통계량값이며，선형회귀표시화면의F统计量与常模과동일합니다。이예제에서이값은89.987이며선형회귀표시화면에서이F- 통계량값은90으로반올림됩니다。
p值- 모델에대한F- 검정의p- 값입니다。이예제에서이값은7.3816e-27입니다。

회귀모델에더높은차수의항이있는경우方差分析는모델SUMSQ를더높은차수항과그나머지로설명되는부분으로분할합니다。이에대응하는F- 통계량은별도의그룹으로일차항과더높은차수항의유의성을검정하는데사용됩니다。

데이터에반복실험또는동일한예측변수값에서의여러측정값이포함된경우方差分析는오차SUMSQ를반복실험과그나머지에해당하는부분으로분할합니다。이에대응하는F- 통계량은모델잔차와반복실험에대해계산된모델이없는분산추정값을비교하여적합결여를검정하는데사용됩니다。

모델의항별로분산분석표를분해합니다。

方差分析（LM）

ANS =4×5表SUMSQ DF MeanSq˚Fp值________ __ ________ _________ __________ X1 563.18 1 563.18 33.667 9.8742e-08 X2 52.187 1 52.187 3.1197 0.08078×3 0.060046 0.060046 1 0.95236 0.0035895错误1488.8 89 16.728

이方差分析결과는다음을표시합니다。

첫번째열 - 모델에포함된항입니다。
SUMSQ- 상수항을제외한각항에대한제곱오차의합입니다。
DF- 자유도입니다。이예제에서DF는모델에포함된각항의경우1이고오차항의경우 $ñ - p$ 입니다。여기서 $ñ$ 은관측값개수이고 $p$ 는절편을포함하여모델에포함된계수의개수입니다。예를들어，이모델의오차항에대한DF는93 - 4 = 89입니다。모델의변수중하나라도범주형변수인경우해당변수에대한DF는해당범주에대해생성된표시변수의개수（범주개수 - 1）입니다。
MeanSq- 각항에대한평균제곱오차입니다。참고로，MeanSq = SUMSQ / DF입니다。예를들어，오차항에대한평균제곱오차는1488.8 / 89 = 16.728입니다。
F- 각계수에대한F- 값입니다。F- 값은각항의평균제곱과평균제곱오차의비율，즉F = MeanSq（XI）/ MeanSq（错误）입니다。각F- 통계량은대응하는항에대해분자의자유도가DF값이고분모의자유도가 $ñ - p$ 인F분포를갖습니다。 $ñ$ 은관측값개수이고 $p$ 는모델에포함된계수의개수입니다。이예제에서，각F- 통계량은 $F_{（ 1 ， 89 ）}$ 분포를갖습니다。
p值- 선형모델에서대응되는항의계수에대한각가설검정의p- 값입니다。예를들어，X2의F- 통계량계수에대한p- 값은0.08078이며모델의다른항을고려할때5％유의수준에서유의미하지않습니다。

계수신뢰구간

계수신뢰구간을표시합니다。

coefCI（LM）

ANS =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726

각행의값은계수에대한디폴트95％신뢰구간의하한및상한값입니다。예를들어，첫번째행은절편 $β_{0}$ 에대한하한과상한，즉40.2702와55.6833을표시합니다。마찬가지로，두번째행은 $β_{1}$ 에대한하한및상한을표시합니다。신뢰구간은선형회귀계수추정값에대한정확성의척도를제공합니다。 $100 （ 1 - α ）％$ 신뢰구간은해당하는회귀계수가 $100 （ 1 - α ）％$ 신뢰구간에서속하게되는범위를제공합니다。

신뢰수준을변경할수도있습니다。계수에대한99％신뢰구간을구합니다。

coefCI（LM，0.01）

ANS =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973

계수에대한가설검정

'적어도하나의예측변수계수가0이아니다' 는대립가설에대해 '모든예측변수계수가0이다' 는귀무가설을검정합니다。

[P，F，d] = coefTest（LM）

P = 7.3816e-27

F = 89.9874

d = 3

여기서coefTest는모델에서 '적어도하나의회귀계수가0이아니다' 는기본적가설에대해 '모든회귀계수（절편제외）가0이다' 는가설을검증하는F- 검정을수행합니다。이는 $p$ ，p- 값，F，F- 통계량，d，분자의자유도를반환합니다。F- 통계량과p- 값은모델에대한선형회귀표시화면과方差分析의그것과같습니다。모델에는4개의예측변수（절편포함）가있기때문에자유도는4 - 1 = 3입니다。

이제，첫번째예측변수와두번째예측변수에대해가설검정을수행합니다。

H = [0 1 0 0;0 0 1 0];[P，F，d] = coefTest（LM，H）

P = 5.1702e-23

F = 96.4873

d = 2

분자의자유도는검정된계수의개수입니다。이예제에서는2개입니다。결과는 $β_{2}$ 와 $β_{3}$ 중적어도하나가0이아니라는것을나타냅니다。

참고항목

线性模型|方差分析|fitlm|stepwiselm

선형회귀결과해석하기

선형회귀모델피팅하기

분산분석（ANOVA）

계수신뢰구간

계수에대한가설검정

참고항목

관련예제

세부정보

统计和机器学习工具箱문서

지원

掌握机器学习：有步骤，分步指南与MATLAB