加权非线性回归

打开脚本

此示例示出了如何以符合非线性回归模型用于与非恒定误差方差数据。

定期非线性最小二乘算法是适当的，当测量误差都具有相同的方差。如果这种假设是不正确的，要使用加权拟合是适当的。这个例子显示了如何使用权fitnlm功能。

数据和模型飞度

我们将使用收集到引起工业和生活废弃物研究水体污染的数据。这些数据被详细描述在盒，G.P.，W.G.亨特，和J.S.描述猎人，统计实验者（Wiley出版社，1978年，第483-487）。响应变量是毫克/升生化需氧量，和预测器变量是孵育时间以天。

X = [1 2 3 5 7 10]';Y = [109 149 149 191 213 224]';积（X，Y，'KO'）;xlabel（'孵化（天）中，X'）;ylabel（“生化需氧量（毫克/升）中，Y”）;

我们假设可知，前两个观测与比其余观测精度要求不高制造。他们可能，例如，已与不同的仪器。另一个常见的原因重量数据是每个记录的观察实际上是平均x处的相同值采取了若干测量。在这里的数据，假设前两个值表示单个原始测量，而剩下的四个各自为平均值的5次原始测量。然后，它会通过的是进入每个观察测量的数量适当的重量。

W = [1 1 5 5 5 5]';

我们将适合这些数据的模型是为x变大变成水平成比例的指数曲线。

modelFun = @（B，X）B（1）*（1-EXP（-B（2）* X）。）。

正是基于粗略的视觉契合，似乎通过这些点绘制的曲线可能在x = 15附近以约240某处的值拉平所以我们将使用240作为B1的初始值，并自Ë^（ - 5 * 15）比1小，我们将用.5可以为B2的初始值。

开始= [240;0.5];

配合而不权重模型

在忽略测量误差的危险是，在配合可以通过不精确的测量被过度地影响，并且可以因此不认为是精确已知的测量提供了良好的配合。让我们来适应没有重量的数据，并将其与分。

NLM = fitnlm（X，Y，modelFun，启动）;XX = linspace（0,12）';线（XX，预测（NLM，XX），“线型”，' - '，'颜色'，数k）

配合权重模型

请注意，拟合曲线向第一个两分拉，但似乎错过了其他点的趋势。让我们尝试重复使用权的契合。

wnlm = fitnlm（X，Y，modelFun，启动，'重量'，w）的线（XX，预测（wnlm，XX），'颜色'，'B'）

wnlm =非线性回归模型为：y〜B1 *（1  -  EXP（ -  B2 * X））估计系数：估计SE TSTAT p值________ ________ ______ __________ B1 225.17 10.7 21.045 3.0134e-05 B2 0.40078 0.064296 6.2333 0.0033745观测数量：6，错误自由度：4均方根误差：24 R平方：0.908，调整R平方0.885 F统计与零模式：696，p值= 8.2e-06

在这种情况下所估计的总体标准偏差描述了一种用于具有重量，或测量精度，1的“标准”观察平均变化。

wnlm.RMSE

ANS = 24.0096

任何分析的一个重要部分是模型拟合的精度的估计。系数显示屏显示的参数标准误差，但我们也可以为他们计算置信区间。

coefCI（wnlm）

ANS = 195.4650 254.8788 0.2223 0.5793

估计响应曲线

接下来，我们将计算拟合响应值和置信区间为他们。默认情况下，这些宽度是逐点置信区间的预测值，但我们会要求同步间隔为整个曲线。

[ypred，ypredci] =预测（wnlm，XX，'同时'，真正）;积（X，Y，'KO'，XX，ypred，'B-'，XX，ypredci，'B：'）;xlabel（'X'）;ylabel（'Y'）;传说（{'数据'，“加权拟合”，'95％置信区间}，'位置'，'东南'）;

注意两个downweighted点不被曲线剩余点适合为好。这是你所期望的加权拟合。

它也可以在x的特定值来估计未来的观测值预测区间。这些间隔将在效果假定的权重，或测量精度，1。

[ypred，ypredci] =预测（wnlm，XX，'同时'，真正，'预测'，“观察”）;积（X，Y，'KO'，XX，ypred，'B-'，XX，ypredci，'B：'）;xlabel（'X'）;ylabel（'Y'）;传说（{'数据'，“加权拟合”，'95％的预测极限}，'位置'，'东南'）;

权重的绝对规模其实并不影响参数估计。重新缩放任何固定的权重将给予我们同样的估计。但是，他们却会影响到置信区间，因为边界代表与体重1的观察在这里你可以看到，具有较高权重的点似乎过于接近拟合线，用的放心限值进行比较。

虽然预测方法不允许我们改变权重，这是我们能够做一些后期处理和调查的曲线将如何寻找一个更精确的估计。假设我们感兴趣的是基于平均五个测量一个新的观察，就像在该地块最后的四点意见。我们可以通过SQRT（5）的一个因子减小的间隔的宽度。

半宽度= ypredci（：，2）-ypred;newwidth =半宽度/ SQRT（5）;newci = [ypred-newwidth，ypred + newwidth];积（X，Y，'KO'，XX，ypred，'B-'，XX，newci，'R：'）;xlabel（'X'）;ylabel（'Y'）;传说（{'数据'，“加权拟合”，“的重量限制= 5”}，'位置'，'东南'）;

残留分析

除了绘图数据和配合，我们会从对预测的拟合残差绘图，诊断与模型的任何问题。残差应该出现独立同分布的，但与成比例的权重的逆的方差。我们可以规范这种变化使剧情更容易解释。

R = wnlm.Residuals.Raw;图（X，R。*的sqrt（W）'B ^'）;xlabel（'X'）;ylabel（'残差，yFit  -  Y'）;

有一个在这个残差图系统模式的一些证据。通知最后四个残差如何有一个线性趋势，表明该模型可能无法增加足够快的速度为x增加。另外，残差的大小趋向于随着x的增加，这表明测量误差可能依赖于x。这些值得调查，然而，有这么几个数据点，这是很难的意义附加到这些明显的图案。

加权非线性回归

数据和模型飞度

配合而不权重模型

配合权重模型

估计响应曲线

残留分析

统计和机器学习工具箱文档

万博1manbetx

掌握机器学习：有步骤，分步指南与MATLAB