一个线性回归模型描述的是因变量,y,以及一个或多个独立变量,X.因变量也称为反应变量.自变量也称为自变量说明或预测变量.连续预测变量也称为连续预测变量协变量,也称为分类预测变量因素.矩阵X对预测变量的观察通常称为设计矩阵.
多元线性回归模型为
在哪里
y我是我响应。
βk是kTh系数,其中β0是模型中的常数项。有时,设计矩阵可能包含常数项的信息。然而,fitlm
或stepwiselm
默认情况下,模型中包含常数项,因此您不能在设计矩阵中输入1列X.
Xij是我观察到j预测变量,j= 1,…p.
ε我是我噪声项,即随机误差。
如果模型只包含一个预测变量(p= 1),则该模型称为简单线性回归模型。
一般来说,线性回归模型可以是模型的形式
在哪里f(.)为自变量的标量值函数,Xijs,函数,f(X),可以是任何形式,包括非线性函数或多项式。线性回归模型中的线性是指系数的线性程度βk.也就是响应变量,y,为系数的线性函数,βk.
线性模型的一些例子是:
然而,下面的模型不是线性模型,因为它们在未知系数中不是线性的,βk.
线性回归模型的通常假设是:
噪声项,ε我,是不相关的。
噪声项,ε我,具有独立且相同的正态分布,均值为零,方差为常数σ2.因此,
而且
的方差y我所有层次都是一样的吗Xij.
的响应y我是不相关的。
拟合的线性函数为
在哪里 估计的响应和bkS是拟合系数。对系数进行估计,以使预测向量之间的均方差最小化 和真正的响应向量 也就是说 .这个方法称为最小二乘法.在对噪声项的假设下,这些系数也使预测向量的似然最大化。
在线性回归模型的形式y=β1X1+β2X2+……+βpXp,系数βk表示预测变量中一个单位变化的影响,Xj为响应E(y),只要所有其他变量保持不变。系数的符号给出了效应的方向。例如,如果线性模型为E(y) = 1.8 - 2.35X1+X2,则-2.35表示平均响应增加1个单位,平均响应减少2.35个单位X1,鉴于X2保持不变。如果模型为E(y) = 1.1 + 1.5X12+X2,的系数X12的平均值增加了1.5个单位Y增加了一个单位X12在其他条件不变的情况下。然而,在E(y) = 1.1 + 2.1X1+ 1.5X12,很难以类似的方式解释系数,因为不可能保持不变X1常数时X12变化,反之亦然。
[1]内特,J., M. H.库特纳,C. J.纳赫茨海姆和W.沃瑟曼。应用线性统计模型.《麦克劳-希尔公司》,1996年。
[2] Seber g.a.f.线性回归分析.概率与数理统计中的威利级数。约翰·威利父子公司,1977年。