岭回归

描述

=脊(ÿXķ返回系数估计岭回归模型预测数据X和响应ÿ。的每一列对应于特定的脊参数ķ。默认情况下,函数计算中心和缩放的预测有均值为0,标准偏差1.因为模型不包含常数项后,没有1秒的列添加到X

=脊(ÿXķ缩放指定系数估计在所述缩放。什么时候缩放1(默认),该系数不恢复到原来的数据规模。什么时候缩放0恢复系数为原始数据的规模。欲了解更多信息,请参阅缩放系数

例子

全部收缩

对于一系列的脊参数进行岭回归,并观察系数如何估计变更。

加载乙炔数据集。

加载乙炔

乙炔包含预测变量观察X1X2X3和响应变量ÿ

暗算对方的预测变量。观察变量之间的任何关联。

plotmatrix([X1 X2 X3的])

例如,注意之间的线性相关X1X3

计算系数估计用于与交互项的多线性模型,对一系列的脊参数。用x2fx创建互动的条款和执行岭回归。

X = [X1 X2 X3的];d = x2fx(X,'相互作用');d(:,1)= [];%没有常数项K = 0:1E-5:5E-3;B =脊(Y,d,k)的;

画出岭迹。

图积(K,B,'行宽',2)ylim([ -  100 100])格xlabel(“岭参数”)ylabel(“标准化系数”)标题(“岭迹”)图例('X1''X2''X3''X1X2''x1x3'“X 2 X 3”

估计稳定在图的右侧。注意的系数X 2 X 3交互项在岭参数的值改变符号 * 1 0 - 4

预测使用岭回归英里每加仑(MPG)的值。

加载carbig数据集。

加载carbigX = [加速重量位移马力];Y = MPG;

拆分数据为训练和测试集。

N =长度(Y);RNG('默认'%用于重现C = cvpartition(N,'坚持',0.3);idxTrain =训练(C,1);idxTest =〜idxTrain;

查找岭回归模型(其中k = 5)的系数。

K = 5;B =脊(Y(idxTrain),X(idxTrain,:)中,k,0);

预测MPG使用该模型的测试数据值。

yhat = B(1)+ X(idxTest,:)* B(2:结束);

使用的基准线每加仑比较的预测值与实际英里(MPG)的值。

散射(Y(idxTest),yhat)保持图(Y(idxTest),Y(idxTest))xlabel(“实际MPG”)ylabel(“预测MPG”)保持

输入参数

全部收缩

响应数据,指定为ñ×1数字向量,其中ñ是观测值的数量。

数据类型:|

预测数据,指定为ñ-通过-p数字矩阵。的行X对应于ñ观察,和列X对应于p预测。

数据类型:|

脊参数,指定为数值向量。

例:[0.2 0.3 0.4 0.5]

数据类型:|

缩放标志,用于确定所述系数是否在估计被恢复到原始数据的比例,指定为0要么1。如果缩放0, 然后执行此附加转换。在这种情况下,包含p+1系数的每个值ķ,与第一排对应于在模型中的常数项。如果缩放1,那么软件省去了额外的转变,包含p系数不常数项系数。

输出参数

全部收缩

系数估计值,返回一个数字矩阵。的行对应于预测X,和列对应于脊参数ķ

如果缩放1, 然后p-通过-矩阵,其中是元素的数ķ。如果缩放0, 然后是(p+1)-通过-矩阵。

更多关于

全部收缩

岭回归

岭回归是用于估计线性模型,包括线性相关预测因子的系数的方法。

系数估计多元线性回归模型依赖于模型方面的独立性。当术语是相关的和设计矩阵的列X具有近似线性关系,该基质(XŤX-1接近奇异。因此,最小二乘估计

β ^ = X Ť X - 1 X Ť ÿ

是在所观察到的响应的随机误差高度敏感ÿ,产生大的方差。多重共线性的这种情况可能出现,例如,当你收集数据,而不实验设计。

岭回归通过使用估计回归系数解决多重共线性问题

β ^ = X Ť X + ķ 一世 - 1 X Ť ÿ

哪里ķ是岭参数一世是单位矩阵。小,正值ķ改善这个问题的调节,降低了估计的方差。而施力,脊的降低方差相比最小二乘估算时往往估计在一个较小的均方误差的结果。

缩放系数

系数估计岭回归模型的比例取决于值了缩放输入参数。

假设皮丘参数ķ等于0由返回的系数, 什么时候缩放等于1是的估计b一世1在多线性模型

ÿ-μÿ=b11ž1+ ... +bp1žp+ε

哪里ž一世=(X一世-μ一世)/σ一世是居中和缩放的预测,ÿ-μÿ是居中响应,并且ε是误差项。你可以重写模型

ÿ=b00+b10X1+ ... +bp0Xp+ε

b 0 0 = μ ÿ - Σ 一世 = 1 p b 一世 1 μ 一世 σ 一世 b 一世 0 = b 一世 1 σ 一世 。该b一世0项对应于返回的系数什么时候缩放等于0

更一般地,对于任何价值ķ如果B1 =脊(Y,X,K,1), 然后

M =平均(X);S = STD(X,0,1)';B1_scaled = B1./s;B0 = [平均(y)的-m * B1_scaled;B1_scaled]

哪里B0 =脊(Y,X,K,0)

提示

  • 对待为NaN价值观X要么ÿ为缺失值。遗漏观察从岭回归拟合缺失值。

  • 在一般情况下,一套缩放等于1生产其中系数显示在同一坐标表示。看到岭回归用于例如使用脊轨迹曲线,其中该回归系数被显示为脊参数的函数。当进行预测,集缩放等于0。对于一个示例,请参见预测值使用岭回归

另类功能

  • 脊,套索和弹性网正规化是用于估计线性模型的系数而惩罚大系数的所有方法。该类型的处罚取决于方法(见更多关于更多细节)。要执行套索或弹力网正规化,使用套索代替。

  • 如果你有高维全或稀疏的预测数据,你可以使用fitrlinear代替。当使用fitrlinear,指定“正规化”,“脊”名称 - 值对的参数。设置的值“拉姆达”名称 - 值对参数到您选择的脊参数的向量。fitrlinear返回一个训练有素的线性模型MDL。您可以访问存储在系数估计Beta版利用该模型的属性Mdl.Beta

参考

[1] Hoerl,A. E.,和R. W.肯纳德。“岭回归:偏估计非正交问题。”Technometrics。卷。12,第1号,1970,第55-67。

[2] Hoerl,A. E.,和R. W.肯纳德。“岭回归:应用到非正交的问题。”Technometrics。卷。12,第1号,1970,第69-82页。

[3]马夸特,D.W“广义逆,岭回归,偏线性估计,和非线性估计”。Technometrics。卷。12,第3期,1970,第591-612。

[4]马夸特,D.W.,和R. D. Snee。“岭回归于实践。”美国统计学家。卷。29,第1号,1975年,第3-20。

也可以看看

|||

R2006a前推出