主要内容

分析生存或可靠性数据

这个例子说明了如何用截尾分析寿命数据。在生物学或医学应用中,这被称为生存分析,时间可能代表生物体的生存时间或疾病治愈的时间。在工程应用中,这被称为可靠性分析,时间可能代表设备失效的时间。

我们的例子模拟了从汽车燃油喷射系统到节气门失效的时间。

寿命数据的特殊性质

生命周期数据的某些特征将它们与其他类型的数据区分开来。首先,生命周期始终是正值,通常表示时间。其次,某些生命周期可能无法准确观察到,因此已知它们只比某个值大。第三,常用的分布和分析技术相当特定于生命周期数据

让我们模拟测试100个节流阀直到失效的结果。如果大多数节流阀的使用寿命相当长,我们将生成可能观察到的数据,但有一小部分节流阀往往很早就失效。

rng (2“旋风”);一生= [wblrnd (15000, 90, 1);wblrnd(1500、3、10,1)];

在本例中,假设我们在压力条件下测试节气门,因此每小时的测试相当于100小时的现场实际使用。出于实用的原因,可靠性测试通常在一段固定的时间后停止。对于本例,我们将使用140小时,相当于实际服务的总时间为14,000小时。有些项目在测试中失败了,而另一些项目则存活了整个140小时。在实际测试中,后者的时间记录为14000,我们在模拟数据中模拟了这一点。对故障时间进行排序也是一种常见的做法。

T=14000;obstime=sort(min(T,生存期));

我们知道,任何通过测试的节流阀最终都会失败,但测试的时间不足以观察它们的实际失败时间。它们的寿命只知道大于14000小时。这些值被称为被删失。该图显示,我们大约40%的数据在14000时被删失。

失败= obstime (obstime < T);nfailed =长度(失败);幸存= obstime (obstime = = T);nsurvived =长度(存活);censored = (obstime >= T);情节([0(大小(obstime)), obstime]”,repmat(1:长度(obstime), 2, - 1),...“颜色”“b”“线型”“- - -”) line([T;3e4], repmat(nfailed+(1: n幸存),2,1),“颜色”“b”“线型”“:”);线([T, T], [0; nfailed + nsurvived],“颜色”“k”“线型”“- - -”)文本(T, 30岁,'<-未知的生存时间过去这里')包含(的生存时间);ylabel (“观察数量”

图中包含一个轴对象。axis对象包含149个类型为line, text的对象。

查看发行版的方法

在我们研究数据的分布之前,让我们考虑一下观察概率分布的不同方法。

  • 概率密度函数(PDF)表示不同时间的相对失效概率。

  • 幸存者函数给出生存概率作为时间的函数,简单地说是1减去累积分布函数(1-CDF)。

  • 危险率给出了给定生存时间的瞬时失效概率。它是PDF除以幸存者函数。在本例中,危险率逐渐增加,这意味着随着时间的推移(老化),物品更容易失效。

  • 概率图是重新缩放的CDF,用于将数据与拟合分布进行比较。

下面是这四种图形类型的示例,使用Weibull分布进行说明。Weibull是建模生命周期数据的一种常见分布。

x = linspace (30000);次要情节(2 2 1);情节(x, wblpdf (x, 14000, 2), x, wblpdf (x, 18000, 2), x, wblpdf (1.1 x 14000))标题('概率密度Fcn'次要情节(2,2,2);情节(x, 1-wblcdf (x, 14000, 2), x, 1-wblcdf (x, 18000, 2), x, 1-wblcdf (1.1 x 14000))标题(“幸存者Fcn”)次要情节(2、2、3);wblhaz = @ (x, a, b) (wblpdf (x, a、b)。/ (1-wblcdf (x, a, b)));情节(x, wblhaz (x, 14000, 2), x, wblhaz (x, 18000, 2), x, wblhaz (1.1 x 14000))标题(“危险率Fcn”)次要情节(2、2、4);probplot (“威布尔”,wblrnd(14000,2,40,1))标题(“概率图”

图中包含4个轴对象。具有标题问题的轴对象1。具有标题幸存者Fcn的轴对象2包含3个类型线对象。具有标题危险率Fcn的轴对象3包含3个类型线对象。具有标题概率图的轴对象4包含2个类型线对象。

拟合威布尔分布

威布尔分布是指数分布的推广。如果寿命遵循指数分布,那么它们的危险率是恒定的。这意味着它们不会变老,从某种意义上说,在一个区间内观察到失败的概率,在区间开始时的存活时间,并不取决于区间开始的位置。威布尔分布有可能增加或减少的危险率。

用于建模寿命数据的其他分布包括对数正态分布、伽马分布和Birnbaum-Saunders分布。

我们将绘制数据的经验累积分布函数,显示每个可能存活时间的失败比例。虚线曲线给出了这些概率的95%置信区间。

次要情节(1 1 1);[empF x, empFlo, empFup] = ecdf (obstime,“审查”,经审查);楼梯(x,empF);持有;楼梯(x, empFlo,“:”); 楼梯(x,empFup,“:”); 持有包含(“时间”);ylabel (“比例”失败);标题(“经验提供”

图中包含一个轴对象。标题为Empirical CDF的轴对象包含3个楼梯类型的对象。

例如,这张图显示,在时间4000时失败的比例约为12%,而此时失败概率的95%置信范围在6%到18%之间。请注意,因为我们的测试只运行了14000小时,所以经验CDF只允许我们计算出超出该限制的失败概率。几乎一半的数据在1.4万份时被审查,因此实证的CDF只上升到0.53左右,而不是1.0。

威布尔分布通常是设备故障的一个很好的模型。这个函数wblfit将威布尔分布拟合到数据中,包括有截尾的数据。在计算参数估计后,我们将使用这些估计来评估拟合Weibull模型的CDF。因为CDF值是基于估计参数的,我们将计算它们的置信范围。

paramEsts = wblfit (obstime,“审查”、审查);[nlogl, paramCov] = wbllike (paramEsts obstime,审查);xx = linspace(1、2 * 500 (T));[wblF, wblFlo wblFup] = wblcdf (xx, paramEsts (1) paramEsts (2), paramCov);

我们可以将经验CDF和拟合CDF的图进行叠加,以判断威布尔分布模型对节流阀可靠性数据的影响。

楼梯(x, empF);持有处理=情节(xx, wblF的r -xx wblFlo,“:”,xx,wblFup,“:”); 持有包含(“时间”);ylabel (“拟合失效概率”);标题(“威布尔模型与实证”

图中包含一个axes对象。标题为Weibull模型与经验模型的axes对象包含4个stair、line类型的对象。

请注意,Weibull模型允许我们预测和计算试验结束后的故障概率。但是,拟合曲线似乎与我们的数据不匹配。与Weibull模型预测的相比,我们在2000年之前有太多的早期故障,因此,在大约7,00次之间的故障次数太少0和大约13000。这并不奇怪——回想一下,我们就是用这种行为生成数据的。

添加平滑非参数估计

统计和机器学习工具箱提供的预定义函数™ 不要包含任何像这样的早期失效过多的分布。相反,我们可能希望使用函数通过经验CDF绘制一条平滑的非参数曲线ksdensity.我们将移除Weibull CDF的置信带,并添加两条曲线,一条带有默认的平滑参数,另一条带有默认值1/3的平滑参数。平滑参数越小,曲线与数据的关系越紧密。

delete(handles(2:end))[npF,ignore,u]=ksdensity(obstime,xx,“岑”审查,“函数”“cdf”);线(npF xx,“颜色”“g”);npF3 = ksdensity (obstime, xx,“岑”审查,“函数”“cdf”“宽度”,u/3);生产线(xx,npF3,“颜色”“米”); xlim([0 1.3*T])标题(“威布尔和非参数模型与经验模型”)传说(“经验的”“符合威布尔”'非参数,默认''非参数,1/3默认'...“位置”“西北”);

图中包含一个轴对象。以威布尔和非参数模型与经验模型为标题的轴对象包含楼梯、线类型的4个对象。这些对象代表经验,拟合威布尔,非参数,默认,非参数,1/3默认。

采用较小平滑参数的非参数估计与数据吻合较好。然而,就像经验CDF一样,不可能在测试结束后外推非参数模型——估计的CDF水平高于最后的观察。

让我们计算这个非参数拟合的风险率,并在数据范围内绘制它。

hazrate = ksdensity (obstime, xx,“岑”审查,“宽度”(1-npF3);地块(xx,hazrate)标题(“非参数模型的危险率”) xlim ([0, T])

图中包含Axis对象。非参数模型标题为“危险率”的Axis对象包含line类型的对象。

这条曲线有点像“浴缸”形状,危险率在2000年附近很高,下降到较低的值,然后又上升。这是一种典型的组件危险率,该组件在其生命早期(婴儿死亡率)和生命后期(老化)更易发生故障。

还需要注意的是,在非参数模型的最大未删减观测值之上无法估计危险率,图值降至零。

替代模型

对于我们在本例中使用的模拟数据,我们发现Weibull分布并不适合。我们能够用非参数拟合很好地拟合数据,但该模型仅在数据范围内有用。

另一种选择是使用不同的参数分布。统计和机器学习工具箱包括用于其他常见寿命分布的函数,如对数正态分布、伽马和Birnbaum-Saunders,以及许多在寿命模型中不常用的其他分布。您还可以定义自定义参数模型并使其适合于生命周期数据,如在拟合自定义分布时避免数值问题的例子。

另一种选择是混合使用两种参数分布——一种表示早期失败,另一种表示其余分布。混合分布的拟合描述在符合自定义分布的例子。