什么是生存分析?
简介
生存分析是时间-事件分析,也就是说,当感兴趣的结果是事件发生之前的时间。事件时间的例子有:在健康科学中,直到感染、疾病复发或康复的时间;在经济学中,失业的持续时间;在工程学中,直到机器部件失效的时间或灯泡的寿命,等等。生存分析是工程可靠性研究的一部分。在这种情况下,它通常用于研究工业组件的寿命。在可靠性分析中,生存时间通常称为故障时间,因为感兴趣的变量是组件在故障前正常工作的时间。
生存分析包括参数、半参数和非参数方法。您可以使用这些来估计生存研究中最常用的测量方法,幸存者和危险函数,比较不同组的测量方法,并评估预测变量与生存时间的关系。一些统计概率分布很好地描述了生存时间。常用的分布有指数分布、威布尔分布、对数正态分布、伯尔分布和伯恩鲍姆-桑德斯分布。统计和机器学习工具箱™功能ecdf
而且ksdensity
计算cdf、累积危险和幸存者函数的经验和核密度估计。coxphfit
将Cox比例风险模型与数据相匹配。fitcox
是Cox比例风险模型的一个更现代的拟合函数。
审查
生存分析中的一个重要概念是审查。由于不同的原因,有些个体的生存时间可能无法被完全观察到。在生命科学中,这种情况可能发生在生存研究(例如,临床试验)在观察到所有个体的完整生存时间之前停止,或者一个人退出研究,或者在患者无法随访时退出长期研究。在工业环境中,并非所有组件都可能在可靠性研究结束前失效。在这种情况下,个体存活超过了研究的时间,而确切的存活时间是未知的。这就是所谓的权利审查。
在生存研究中,观察个体在某一时刻失败T,或者对那个人的观察在时间上停止c。则观测值为min(T,c)和指示变量我c显示个人是否被审查。危险和幸存者函数的计算必须调整,以考虑审查。统计和机器学习工具箱功能,如ecdf
,ksdensity
,coxphfit
,大中型企业
负责审查。
数据
生存数据通常包括感兴趣的事件发生之前的时间以及每个个体或组件的审查信息。下表显示了一项为期6个月的研究中虚构的个人失业时间。两个人被正确审查(由审查值为1表示)。当研究结束时,第24周后,一个人仍然失业。在第21周结束时,与另一个被审查的人失去了联系。
失业时间(周) | 审查 |
---|---|
14 | 0 |
23 | 0 |
7 | 0 |
21 | 1 |
19 | 0 |
16 | 0 |
24 | 1 |
8 | 0 |
生存数据还可能包括特定时间内的故障次数(观察到的特定生存或故障时间的次数)。下表显示了在加速寿命测试中,发光二极管下降到其全光输出水平的70%(以小时为单位)的模拟时间。
故障时间(小时) | 频率 |
---|---|
8600 | 6 |
15300 | 19 |
22000 | 11 |
28600 | 20. |
35300 | 17 |
42000 | 14 |
48700 | 8 |
55400 | 2 |
62100 | 0 |
68800 | 2 |
数据也可能包含关于预测变量的信息,用于半参数回归类方法,如Cox比例风险回归。
恢复时间(周) | 审查 | 性别 | 收缩压 | 舒张压 |
---|---|---|---|---|
12 | 1 | 男性 | 124 | 93 |
20. | 0 | 女 | 109 | 77 |
7 | 0 | 女 | 125 | 83 |
13 | 0 | 男性 | 117 | 75 |
9 | 1 | 男性 | 122 | 80 |
15 | 0 | 女 | 121 | 70 |
17 | 1 | 男性 | 130 | 88 |
8 | 0 | 女 | 115 | 82 |
14 | 0 | 男性 | 118 | 86 |
幸存者函数
幸存者函数是存活的概率作为时间的函数。它也被称为生存函数。它给出了个体生存时间超过某一数值的概率。由于累积分布函数,F(t),为生存时间小于或等于给定时间点的概率,为连续分布的生存函数,年代(t),为累积分布函数的补:
年代(t) = 1 -F(t).
幸存者函数也与风险函数。如果数据具有危险函数,h(t),则存活函数为
对应于
在哪里H(t)为累积危险函数。
Burr分布存活函数
计算并绘制带有参数的Burr分布的幸存者函数50
,3.
,1
。
X = 0:0.1:200;图()图(x, 1-cdf (“毛刺”x 50 - 3, - 1))包含(“失败时间”);ylabel (“存活率”);
数据中的幸存者函数
这个例子展示了如何从数据中估计幸存者函数。
加载样例数据。
负载readmissiontimes
列向量ReadmissionTime
显示了100个病人的再入院次数。列向量审查
拥有每个患者的审查信息,其中1表示审查数据,0表示观察到的准确再入院时间。该数据是模拟的。
(ReadmissionTime审查)
ans =100×25 1 3 1 19 0 17 0 9 0 16 0 4 0 2 0 3 0 15 0
前两次再入院,5
而且3.
,两者都经过审查。
利用经验幸存者函数进行了检验ecdf
使用名称-值对参数“函数”、“幸存者”
而且审查,审查
。
ecdf (ReadmissionTime“审查”审查,“函数”,“幸存者”)
风险函数
危险函数给出了个体的瞬时故障率,条件是个体存活到给定时间。也就是说,
Δ在哪里t是一个非常小的时间间隔。因此,危险率有时被称为条件故障率。危险函数总是取正值。然而,这些值并不对应于概率,可能大于1。
危险函数与概率密度函数有关,f(t),累积分布函数,F(t),幸存者函数,年代(t),详情如下:
这也等价于
所以,如果你知道了生存函数的形状,你也可以推导出相应的危险函数。
毛刺分布危害函数
计算并绘制带有参数的毛刺分布的危险函数50
,3.
,1
。
X = 0:1:200;Burrhazard = pdf(“毛刺”x 50 3,1) / (1-cdf (“毛刺”x 50 - 3, - 1));plot(x,Burrhazard) xlabel(“失败时间”);ylabel (的故障率);
威布尔危险函数
有不同类型的危险函数。上图显示的是危险率在前期上升后逐渐下降的情况。危险率也可以随时间单调减少、增加或恒定。下图显示了来自不同威布尔分布的数据的不同类型的危险函数示例。
图ax1 = subplot(3,1,1);X1 = 0:05:10;Hazard1 = pdf(“wbl”x1 3 0.6)。/ (1-cdf (“wbl”x1 3 0.6));情节(x1, hazard1,“颜色”,“b”)设置(ax₁,“Ylim”0.6 [0]);传奇(ax₁= 3, b = 0.6的);Ax2 = subplot(3,1,2);X2 = 0:05:10;危险2 = pdf(“wbl”4)。/ (x2, 9日1-cdf (“wbl”4) x2, 9日);情节(x2, hazard2,“颜色”,“r”)设置(ax2,“Ylim”0.6 [0]);传奇(ax2,“= 9,b = 4”,“位置”,“东南”);Ax3 = subplot(3,1,3);X3 = 0:05:10;危险3 = pdf(“wbl”x3, 2.5, 1)。/ (1-cdf (“wbl”x3, 2.5, 1));情节(x3, hazard3“颜色”,‘g’)设置(ax3“Ylim”0.6 [0]);传奇(ax3“b = 2.5, = 1”);
在第三种情况下,Weibull分布的形状参数值为1
,对应于指数分布。随着时间的推移,指数分布总是具有恒定的危险率。
参考文献
[1]考克斯,D. R.和D.奥克斯。生存数据分析。伦敦:查普曼和霍尔,1984。
[2] j.f.劳里斯寿命数据的统计模型和方法。霍博肯,新泽西州:Wiley-Interscience, 2002。
[3]克莱因鲍姆,d.g.和M.克莱因。生存分析。《生物与健康统计》第二版。施普林格,2005年。
另请参阅
ecdf
|fitcox
|coxphfit
|ksdensity