统计和机器学习工具箱™功能ecdf
使用Kaplan-Meier非参数方法生成经验累积危险、幸存者和累积分布函数。生存函数的Kaplan-Meier估计量也称为采用估计量.
Kaplan-Meier方法使用生命表中总结的生存数据。生命表根据上升的故障时间来排序数据,但您不必以有序的方式输入故障/生存时间ecdf
.
生命表通常包括:
次失败
一次/一段时间内失败的项数
在时间/时间段被审查的项目数量
在一段时间/一段时间开始时有风险的项目数量
风险的数量是每个时期开始的幸存者总数。第一期开始的风险的数量是终身研究中的所有个人。在每个剩余期间的开始时,风险的数量减少了在上一段时间结束时审查的失败数量加上个人的数量。
这个生命表显示了虚构的生存数据。在第一个失败时间开始时,有七个有风险的物品。在时间4,三次失败。所以在时间开始7,有四个有风险的物品。只有一个失败的时间7,所以时间11开始的风险上的数量是三个。两个失败时11,所以在时间的开始12中,风险的数量是一个。剩余物品在12时失败。
失败时间(t) | 数字失败 | 数量风险 |
---|---|---|
4. | 3. | 7. |
7. | 1 | 4. |
11. | 2 | 3. |
12. | 1 | 1 |
您可以使用下面描述的生命表来估计危害、累积危害、生存和累积分布函数。
累积危险率(故障率)
每个时期的危险率是给定时期的失败次数除以期间开始时的存活人数(风险的数量)。
故障时间(T.) | 危险率(H(T.))) | 累积危险率 |
---|---|---|
0. | 0. | 0. |
T.1 | D.1/R.1 | D.1/R.1 |
T.2 | D.2/R.2 | H(T.1)+D.2/R.2 |
...... | ...... | ...... |
T.N. | D.N./R.N. | H(T.N.- 1)+D.N./R.N. |
生存概率
对于每个时期,存活概率是危险率补充的产物。第一次期间开始的初始生存概率为1.如果每个时段的危险率是H(T.一世),然后幸存者概率如图所示。
时间 (T.) | 生存概率(S.(T.))) |
---|---|
0. | 1 |
T.1 | 1 *(1 -H(T.1))) |
T.2 | S.(T.1)*(1 -H(T.2))) |
...... | ...... |
T.N. | S.(T.N.- 1)*(1 -H(T.N.))) |
累积分布函数
因为累积分发功能(CDF)和Survivor函数相互补充,所以您可以使用Life表找到CDFF(T.)= 1 -S.(T.)。
您可以计算本页面第一个表中的模拟数据的累积危险率、存活率和累积分布函数,如下所示。
T. | 失败的数量(D.) | 有风险的人数(R.) | 危险率 | 生存概率 | 累积分布函数 |
---|---|---|---|---|---|
4. | 3. | 7. | 3/7 | 1 - 3/7 = 4/7 = 0.5714 | 0.4286 |
7. | 1 | 4. | 1/4 | 4/7 *(1 - 1/4)= 3/7 = .4286 | 0.5714 |
11. | 2 | 3. | 2/3 | 3/7 *(1 - 2/3)= 1/7 = 0.1429 | 0.8571 |
12. | 1 | 1 | 1/1 | 1/7 *(1 - 1)= 0 | 1 |
本例中的速率是基于离散故障时间,因此计算不一定遵循基于导数的定义什么是生存分析?
以下是您如何输入数据并计算这些措施ecdf
.数据不一定要按升序排列。假设失败时间存储在一个数组中y
.
Y = [4 7 11 12];freq = [3 1 2 1];[f,x] = ecdf(y,'频率',弗雷克)
F = 0 0.4286 0.5714 0.8571 1.0000 x = 4 4 7 11 12
当您删除数据时,Life表可能如下所示:
时间 (T.) | 数字失败(D.) | 审查 | 有风险的人数(R.) | 危险率 | 生存概率 | 累积分布函数 |
---|---|---|---|---|---|---|
4. | 2 | 1 | 7. | 2/7 | 1 - 2/7 = 0.7143 | 0.2857 |
7. | 1 | 0. | 4. | 1/4 | 0.7143*(1 - 1/4) = 0.5357 | 0.4643 |
11. | 1 | 1 | 3. | 2/3 | 0.5357 *(1 - 1/3)= 0.3571 | 0.6429 |
12. | 1 | 0. | 1 | 1/1 | 0.3571 *(1 - 1)= 0 | 1.0000 |
在任何给定的时间,审查的物品也在风险的总数中考虑,危险率公式基于未失败的数量和风险的总数。在每个时期开始更新风险时的数量,在此期间开始时,上一段的总数减少了总数和审查的总数。
使用时ecdf
,还必须使用二进制变量数组输入审查信息。截尾数输入1,精确故障时间输入0。
Y = [4 4 4 7 11 11 12];CENS = [0 1 0 0 1 0 0];[f,x] = ecdf(y,'审查',cens)
f = 0 0.2857 0.4643 0.6429 1.0000 x = 4 4 7 11 12
ecdf
默认情况下,生成累积分布函数值。您必须使用可选的名称值对参数指定SURVIVOR函数或危险函数。您还可以将结果绘制如下。
图()ecdf (y,'审查',金根,“函数”那'幸存者');
图()ecdf (y,'审查',金根,“函数”那“累积风险”);
[1] Cox,D. R.和D. oakes。生存资料分析.伦敦:查普曼和霍尔出版社,1984年。
[2]律,J.F。终身数据的统计模型和方法.霍博肯,新泽西州:威利国际科学出版社,2002年。
D. G. Kleinbaum和M. Klein。生存分析.生物学与健康的统计数据。第2版。Springer,2005年。