主要内容

robustfit

配合强大的线性回归

描述

例子

b= robustfit (X,y)返回一个向量b一个健壮的多元线性回归系数估计的反应向量y在预测矩阵X

例子

b= robustfit (X,y,wfun,调优,常量)指定合适的权函数的选择wfun调优和指标常量,决定如果模型包括一个常数项。你可以通过在[]wfun,调优,常量使用默认值。

例子

(b,统计数据)= robustfit (___)返回一个结构统计数据包含估计统计,使用任何输入参数组合在以前的语法。

例子

全部折叠

估计的多元线性模型回归系数。

加载carsmall数据集。指定汽车重量和功率预测和里程每加仑响应。

负载carsmallx1 =重量;x2 =马力;X = (x1, x2));y = MPG;

计算出健壮的回归系数。

b = robustfit (X, y)
b =3×147.1975 -0.0068 -0.0333

画出拟合模型。

x1fit = linspace (min (x1)、马克斯(x1)、20);x2fit = linspace (min (x2)、马克斯(x2)、20);[X1FIT, X2FIT] = meshgrid (X1FIT X2FIT);YFIT = b (1) + (2) * X1FIT + b (3) * X2FIT;网格(X1FIT X2FIT YFIT)

图数据。

持有scatter3 (x1, x2, y,“填充”)举行包含(“重量”)ylabel (“马力”)zlabel (“英里”)传说(“模型”,“数据”10)视图(50)轴

图包含一个坐标轴对象。坐标轴对象包含重量,ylabel马力包含2对象类型的表面散射。这些对象表示模型中,数据。

优化稳健回归的权函数通过使用不同的调优常数。

生成数据的趋势 y = 1 0 - - - - - - 2 x ,然后改变一个值来模拟一个异类。

x = (1:10)”;rng (“默认”)%的再现性10 - 2 * y = x + randn (10, 1);y (10) = 0;

计算使用bisquare稳健回归残差加权函数对三种不同的调优常数。默认调优常数为4.685。

tune_const = (3 4.685 6);i = 1:长度(tune_const)[~,统计]= robustfit (x, y,“bisquare”tune_const(我));渣油(:,i) = stats.resid;结束

创建一个残差的情节。

散射(x,渣油(:1),“b”,“填充”)举行情节(渣油(:,2),“处方”,“MarkerSize”10“线宽”2)散射(x,渣油(:,3),‘g’,“填充”)情节([min (x) max (x)], [0 0),“——k”)举行网格包含(“x”)ylabel (“残差”)传说(“调= 3”,“调= 4.685”,“调= 6”,“位置”,“最佳”)

图包含一个坐标轴对象。对象包含x轴,ylabel剩余工资包含4散射类型的对象,线。一个或多个行显示的值只使用这些对象标记代表曲调= 3,曲调= 4.685,= 6。

计算均方误差(RMSE)残差的三种不同的调优常数。

rmse =√意味着(渣油^ 2))
rmse =1×33.2577 2.7576 2.7099

因为增加了调优常数减少downweight分配给局外人,RMSE减少调优不断增加。

生成数据的趋势 y = 1 0 - - - - - - 2 x ,然后改变一个值来模拟一个异类。

x = (1:10)”;rng (“默认”)%的再现性10 - 2 * y = x + randn (10, 1);y (10) = 0;

适合用普通最小二乘回归直线。计算模型与一个常数项系数估计,包括一个列的x。

劳工统计局=回归(y,[(10、1)的x])
美国劳工统计局=2×17.8518 - -1.3644

估计使用健壮的回归直线匹配。robustfit添加一个常数项的默认模式。

[brob,统计]= robustfit (x, y);brob
brob =2×18.4504 - -1.5278

识别潜在的离群值通过比较残差的平均绝对偏差残差。

outliers_ind =找到(abs (stats.resid) > stats.mad_s);

画一个条形图的稳健回归的残差。

酒吧(abs (stats.resid))yline (stats.mad_s“k——”)举行包含(“x”)ylabel (“残差”)

图包含一个坐标轴对象。坐标轴对象包含x, ylabel残差包含2对象类型的酒吧,constantline。

创建一个数据的散点图。

散射(x, y,“填充”)

情节的局外人。

持有情节(x (outliers_ind), y (outliers_ind),“莫”,“线宽”,2)

图最小二乘和健壮的身体。

情节(x,劳工统计局(1)+ bls (2) * x,“r”)情节(x, brob brob (1) + (2) * x,‘g’)举行包含(“x”)ylabel (“y”)传说(“数据”,“离群值”,普通最小二乘法的,‘强健’回归网格)

图包含一个坐标轴对象。坐标轴对象包含x, y ylabel包含4散射类型的对象,线。一个或多个行显示的值只使用这些对象标记表示数据,离群值,普通最小二乘法,健壮的回归。

离群值影响的符合小于最小二乘匹配。

输入参数

全部折叠

预测数据,指定为一个n——- - - - - -p数字矩阵。行X对应于观测,和列对应于预测变量。X必须有相同数量的行吗y

默认情况下,robustfit对模型添加一个常数项,除非你显式地删除它通过指定常量作为“关闭”。所以,不包括1 s的一列X

数据类型:|

响应数据,指定为一个n1数字向量。行y对应于不同的观察结果。y必须有相同数量的行吗X

数据类型:|

健壮的合适的权函数,指定为权函数的名称描述在下表中,或一个函数处理。robustfit使用相应的默认调优不变,除非另有规定调优

权函数 描述 默认调优常数
“安德鲁” w = (abs (r) <π)。* sin (r)。/ r 1.339
“bisquare” w = (abs (r) < 1)。* (1 - r ^ 2)。^ 2(也称为biweight) 4.685
“柯西” w = 1 / (1 + r ^ 2)。 2.385
“公平” w = 1 / (1 + abs (r)) 1.400
“休伯” w = 1。/ max (1、abs (r)) 1.345
“物流” w / r =双曲正切(r) 1.205
“ols” 普通最小二乘法(没有权重函数) 没有一个
“犯错误” w = 1 * (abs (r) < 1) 2.795
“welsch” w = exp (- (r ^ 2)) 2.985
函数处理 定制的权函数,它接受一个向量r按比例缩小的残差,并返回一个向量的权重相同的大小r 1

的值r的权重函数

r =渣油/(调* *√(1小时)),

在哪里

  • 渣油从上一次迭代的残差向量。

  • 调优调优是常数。

  • h从最小二乘匹配杠杆值的向量。

  • 年代是一个估计的标准偏差的误差项s =疯狂/ 0.6745

疯了的平均绝对偏差的残差值。常数0.6745使得正态分布的无偏估计。如果Xp列,软件不包括最小的p绝对偏差时计算值。

数据类型:字符|字符串|函数处理

调优常数,指定为一个积极的标量。如果你不设置调优,robustfit使用相应的每个权函数的默认调优常数(见表wfun)。

内置的权重函数的默认调优常数给出系数估计,大约有95%是统计上有效的普通最小二乘估计,只要反应没有异常值的正态分布。减少调整常数增加downweight分配给大残差;增加了调优常数降低downweight分配给大残差。

数据类型:|

指标符合一个常数项,指定为“上”“关闭”。如果常量“上”,然后robustfit添加一个1 s的第一列预测矩阵X,输出b成为一个(p+ 1)1的向量。如果常量“关闭”,然后X保持不变,b是一个p1的向量。

数据类型:字符|字符串

输出参数

全部折叠

健壮的多元线性回归系数的估计,作为一个数值向量返回。b是一个p1的向量,p预测的数量吗X

默认情况下,robustfit对模型添加一个常数项,除非你显式地删除它通过指定常量作为“关闭”

模型的统计数据,作为一个结构返回。下表描述了诊断领域的统计结构的健壮的回归。

描述
ols_s σ估计(根均方误差)与普通最小二乘法
robust_s 稳健估计的σ
mad_s 使用的平均绝对偏差σ的估计计算的残差值;用于扩展在迭代拟合残差
年代 σ的最终估计,最大的robust_s和加权平均ols_srobust_s
渣油 残差,观察-拟合值(见原始残差)
rstud Studentized残差,残差除以一个独立的估计剩余标准差(见Studentized残差)
se 标准误差的估计系数值b
covb 估计的协方差矩阵为系数估计
coeffcorr 估计的相关性系数估计
t t统计每个系数测试零假设相应的系数是零对替代,它不同于零,鉴于其他预测模型。请注意,t =b/ se
p p值的t统计假设检验,相应的系数等于零
w 权重向量的一个健壮的健康
R RQR分解的因素X
教育部 自由度的误差(残差),等于观测的数量减去估计系数的数量
h 最小二乘向量的杠杆值

更多关于

全部折叠

利用

杠杆率是一个衡量一个特定的影响观察的回归预测由于位置观测空间的输入。

杠杆的观察的价值吗th对角线项h二世这顶帽子矩阵H。这顶帽子矩阵H定义的数据矩阵X:

H=X(XTX)1XT

帽子矩阵也被称为投影矩阵因为它项目观察y的向量的向量的预测 y ^ “帽子”,从而把y。

因为杠杆值的总和p(在回归模型系数的数量),一个观察可以被认为是一个异类的利用大大超过了p/n,在那里n是观测的数量。

更多细节,请参阅帽子矩阵和杠杆

提示

  • robustfit对待Xy作为缺失值。robustfit省略了观察与缺失的值从健壮的身体。

算法

  • robustfit使用迭代再加权最小二乘法计算系数b。输入wfun指定权重。

  • robustfit估计variance-covariance矩阵的系数估计stats.covb使用这个公式发票(X ' * X) * stats.s ^ 2。这个估计产生标准错误stats.se和关联stats.coeffcorr

  • 在一个线性模型中,观察到的值y和他们的残差是随机变量。残差和零均值正态分布,但不同的差异在不同的值的预测。同等规模的残差,robustfit“Studentizes”剩余工资。也就是说,robustfit将估计的残差的标准差,是独立的价值。Studentized残差有t分布与已知的自由度。robustfit返回Studentized残差stats.rstud

选择功能

robustfit是有用的,当你只需要函数的输出参数或当你想在一个循环中重复多次拟合模型。如果你需要进一步调查一个健壮的拟合回归模型,创建一个线性回归模型对象LinearModel通过使用fitlm。名称-值对参数的值“RobustOpts”“上”

引用

[1]DuMouchel, w . H。,F. L. O'Brien. “Integrating a Robust Option into a Multiple Regression Computing Environment.”计算机科学和统计数据:21研讨会上的程序接口。亚历山大,弗吉尼亚州:美国统计协会,1989。

荷兰[2],p W。,R。E. Welsch. “Robust Regression Using Iteratively Reweighted Least-Squares.”通信数据:理论和方法,A6,1977年,页813 - 827。

[3]胡贝尔,p . J。健壮的统计数据。新泽西州霍博肯:约翰·威利& Sons Inc ., 1981年。

[4],j . O。,R。J. Carroll, and D. Ruppert. “A Note on Computing Robust Regression Estimates via Iteratively Reweighted Least Squares.”美国统计学家。42卷,1988年,页152 - 154。

版本历史

之前介绍过的R2006a