主要内容

岭回归

描述

例子

B=脊(yXk收益系数估计岭回归模型预测数据的X以及回应y.的每一列B对应于一个特定的脊参数k.缺省情况下,该函数进行计算B在定心和缩放后,预测因子的均值为0,标准差为1。因为模型不包含常数项,所以不添加1的列X

例子

B=脊(yXk按比例缩小的中系数估计的比例B.当按比例缩小的1(默认),不将系数恢复到原始数据比例尺。当按比例缩小的0将系数恢复到原始数据的比例。有关更多信息,请参见比例系数

例子

全部折叠

对岭参数范围进行岭回归,观察系数估计如何变化。

加载乙炔数据集。

负载乙炔

乙炔包含预测变量的观察结果x1x2,x3为响应变量y

把预测变量互相画出来。观察变量之间的相关性。

plot矩阵([x1 x2 x3])

MATLAB图

例如,注意之间的线性相关x1而且x3

计算具有相互作用项的多线性模型的系数估计,用于山脊参数的范围。使用x2fx创建交互术语和执行岭回归。

X = [x1 x2 x3];D = x2fx(X,“互动”);D(:,1) = [];%无常数项K = 0:1e-5:5e-3;B = ridge(y,D,k);

画出山脊的轨迹。

图绘制(k, B,“线宽”,2) ylim([-100 100])网格包含(“岭参数”) ylabel (“标准化系数”)标题(“岭跟踪”)传说(x1的“x2”“x3”“x1x2”“x1x3”“x2x3”

图中包含一个轴对象。标题为Ridge Trace的axes对象包含6个类型为line的对象。这些对象表示x1, x2, x3, x1x2, x1x3, x2x3。

估计值稳定在图的右侧。注意的系数x2x3交互项在山脊参数的值处改变符号 5 1 0 - 4

使用岭回归预测每加仑英里数(MPG)值。

加载carbig数据集。

负载carbigX =[加速度、重量、位移、马力];y = MPG;

将数据分成训练集和测试集。

N =长度(y);rng (“默认”%用于再现性C = cvpartition(n,“坚持”, 0.3);idxTrain =训练(c,1);idxTest = ~idxTrain;

求岭回归模型(k = 5)的系数。

K = 5;b = ridge(y(idxTrain),X(idxTrain,:),k,0);

预测英里/加仑使用模型的测试数据的值。

yhat = b(1) + X(idxTest,:)*b(2:end);

使用参考线将预测值与实际每加仑英里数(MPG)值进行比较。

散射(y (idxTest), yhat)情节(y (idxTest), y (idxTest))包含(“实际MPG”) ylabel (“预测MPG”)举行

图中包含一个轴对象。坐标轴对象包含2个散点、直线类型的对象。

输入参数

全部折叠

响应数据,指定为n-by-1数值向量,其中n是观测的数量。

数据类型:|

预测器数据,指定为n——- - - - - -p数字矩阵。一排排的X对应于n的列X对应于p预测因子。

数据类型:|

脊参数,指定为数值矢量。

例子:[0.2 0.3 0.4 0.5]

数据类型:|

缩放标志,决定系数是否估计在B恢复到原始数据的规模,指定为01.如果按比例缩小的0,然后执行附加的转换。在这种情况下,B包含p+1的每个值的系数k,与第一排B对应于模型中的常数项。如果按比例缩小的1,则软件省略额外的转换,并B包含p没有常数项的系数。

输出参数

全部折叠

系数估计,作为数字矩阵返回。一排排的B对应于中的预测因子X的列B对应于脊参数k

如果按比例缩小的1,然后B是一个p——- - - - - -矩阵,元素的个数是多少k.如果按比例缩小的0,然后B是a (p+1)———矩阵。

更多关于

全部折叠

岭回归

岭回归是一种估计包含线性相关预测因子的线性模型系数的方法。

多元线性回归模型的系数估计依赖于模型项的独立性。当项与设计矩阵的列相关联时X近似线性相关,矩阵(XTX1接近于单数。因此,最小二乘估计

β X T X 1 X T y

对观察到的响应中的随机错误高度敏感y,产生很大的方差。这种多重共线性的情况可能会出现,例如,当你收集数据时没有实验设计。

岭回归通过估计回归系数来解决多重共线性问题

β X T X + k 1 X T y

在哪里k山脊的参数是和吗是单位矩阵。的小正值k改进问题的条件,减少估计的方差。虽然有偏差,但与最小二乘估计相比,脊估计的方差减小通常会导致较小的均方误差。

岭正规化

对于给定的值λ,非负参数,解决问题

最小值 β 0 β 1 N y β 0 x T β 2 + λ j 1 p β j 2

地点:

  • N是观测的数量。

  • y观察时的反应是什么

  • x数据是长度向量吗p在观察

  • λ非负正则化参数是否对应于的一个值λ

  • 的参数β0是标量,而参数呢β向量是长度的吗p

套索问题代表了l2正则化元素弹性网

比例系数

脊回归模型的系数估计值的标度取决于的值按比例缩小的输入参数。

假设山脊参数k等于0。返回的系数,当按比例缩小的等于1的估计值b1在多线性模型中

y- - - - - -μyb11z1+……+bp1zp+ε

在哪里z= (x- - - - - -μ) /σ是居中和缩放的预测因子,y- - - - - -μy是中心响应,和ε是一个错误项。您可以将模型重写为

yb00+b10x1+……+bp0xp+ε

b 0 0 μ y 1 p b 1 μ σ 而且 b 0 b 1 σ .的b0项对应于返回的系数按比例缩小的等于0

更一般地说,对于的任何值k,如果B1 =脊(y,X,k,1),然后

m = mean(X);s = std(X,0,1)';B1_scaled = B1./s;B0 = [mean(y)-m*B1_scaled;B1_scaled]

在哪里B0 = ridge(y,X,k,0)

提示

  • 对待Xy作为缺失值。忽略岭回归拟合中缺失值的观测值。

  • 一般来说,集合按比例缩小的等于1生成以相同比例显示系数的图。看到岭回归例如,使用山脊轨迹图,其中回归系数显示为山脊参数的函数。做预测时,设定按比例缩小的等于0.有关示例,请参见使用岭回归预测值

选择功能

  • 脊、套索和弹性网正则化都是估计线性模型系数的方法,同时惩罚大系数。惩罚的类型取决于方法(见更多关于有关详情)。要执行套索或弹性网正则化,使用套索代替。

  • 如果您有高维全或稀疏预测器数据,您可以使用fitrlinear而不是.当使用fitrlinear,指定“正规化”、“岭”名称-值对参数。的值“λ”名称-值对参数赋给所选山脊参数的向量。fitrlinear返回一个训练好的线性模型Mdl.中存储的系数估计值β模型的属性Mdl。β

参考文献

[1]霍尔,A. E.和R. W.肯纳德。岭回归:非正交问题的偏估计技术计量学.第12卷第1期,1970年,第55-67页。

[2]霍尔,A. E.和R. W.肯纳德。岭回归:非正交问题的应用技术计量学.第12卷第1期,1970年,第69-82页。

[3] Marquardt, d.w.《广义逆、岭回归、有偏线性估计和非线性估计》。技术计量学.第12卷第3期,1970年,第591-612页。

[4]马夸特,D. W.和R. D.斯尼。"山脊回归实践"美国统计学家.第29卷第1期,1975年,第3-20页。

版本历史

R2006a之前介绍