稳健回归-减少异常值影响

什么是稳健回归?

中描述的模型什么是线性回归模型?基于某些假设,如观测响应中误差的正态分布。如果误差的分布是不对称的或容易出现异常值,那么模型假设就失效,参数估计、置信区间和其他计算的统计数据就变得不可靠。使用菲特姆坚固的名称-值对以创建不受异常值影响的模型。与普通最小二乘法相比,稳健拟合法对小部分数据的大变化不太敏感。

稳健回归通过给每个数据点分配一个权重来工作。权重是使用名为迭代重加权最小二乘. 在第一次迭代中,每个点被赋予相等的权重,并使用普通最小二乘法估计模型系数。在随后的迭代中,将重新计算权重,以使距离上一次迭代中的模型预测较远的点获得较低的权重。然后使用加权最小二乘法重新计算模型系数。这个过程一直持续到系数估计值在指定的公差范围内收敛为止。

稳健回归与标准最小二乘拟合

这个例子展示了如何使用稳健回归。它将稳健拟合的结果与标准最小二乘拟合进行比较。

第一步。准备数据。

装载摩尔数据。数据在前五列,响应在第六列。

负载摩尔X=摩尔(:,1:5);y=摩尔(:,6);

第2步。适合稳健和nonrobust模型。

调整两个线性模型的数据,一个使用强大的配件,一个不是。

mdl=fitlm(X,y);%不健壮mdlr=fitlm(X,y,'RobustOpts','打开');

第3步:检查模型残差。

检验两个模型的残差。

子批次(1,2,1)绘图残差(mdl,'概率')子批次(1,2,2)绘图残差(mdlr,'概率')

稳健拟合(图的右半部分)的残差几乎都接近直线,除了一个明显的异常值。

第四步。从标准模型中删除异常值。

找到异常值的索引。检查稳健拟合中异常值的权重。

[~,异常值]=最大值(mdlr.Residuals.Raw); 稳健权重(异常值)
ans=0.0246

检查中等体重。

中位数(稳健权重)
ans=0.9718

在稳健拟合中,离群值的权重远小于观测值的典型权重。

另见

||

相关话题