统计与机器学习工具箱™ 功能ECDF
通过使用卡普兰 - 迈耶非参数方法产生经验累积危险,幸存者,和累积分布函数。卡普兰 - 迈耶估计遗功能也被称为乘积限估计.
在Kaplan-Meier法在使用生命表汇总存活数据。生命表按升序故障时间的顺序数据,但你不必在一个有序的方式来使用进入故障/存活时间ECDF
.
一个生命表通常包括:
故障时间
项目数未能在时间/时间段
一次/一段时间内被审查的项目数
有风险的项目在时间/时间段的起始编号
危险人数是每个时期开始时幸存者的总数。在第一阶段开始时的风险数字是终生研究中的所有个体。在剩余的每一个时期开始时,风险的数量由失败的数量加上在上一个时期结束时被审查的个人的数量减少。
这个生命表显示了虚构的生存数据。在第一次故障开始时,有七个项目处于危险之中。第四次,三次失败。所以在第七次开始的时候,有四个项目有风险。在时间7只有一个失败,所以在时间11开始的风险数字是3。两个在第11次失败,所以在第12次开始时,有风险的数字是1。剩余的项目在时间12失败。
故障时间(t) | 编号失败 | 在风险值 |
---|---|---|
4个 | 三 | 7个 |
7个 | 1个 | 4个 |
11个 | 2个 | 三 |
德意志北方银行 | 1个 | 1个 |
可以估算出危险,累积风险,生存,并使用生命表如下所述累积分布函数。
累积危险率(失效率)
每个时期的危险率是指在给定时期内的失败次数除以该时期开始时存活的个体数量(风险人数)。
故障时间(t型) | 危险率(小时(t型)) | 累积危险率 |
---|---|---|
0个 | 0个 | 0个 |
t型1个 | 丁1个/右1个 | 丁1个/右1个 |
t型2个 | 丁2个/右2个 | 小时(t型1个)+丁2个/右2个 |
... | ... | ... |
t型n个 | 丁n个/右n个 | 小时(t型n个–1个)+丁n个/右n个 |
生存概率
在每个时期,生存概率是危险率补足的乘积。第一时间段开始时的初始生存概率为1。如果每个时期的危险率为小时(t型我),则幸存者概率如图所示。
时间(t型) | 生存概率(S公司(t型)) |
---|---|
0个 | 1个 |
t型1个 | 1*(1–小时(t型1个)) |
t型2个 | S公司(t型1个)*(1-小时(t型2个)) |
... | ... |
t型n个 | S公司(t型n个–1个)*(1-小时(t型n个)) |
累积分布函数
因为累积分布函数(cdf)和幸存者函数是互补的,所以可以使用F型(t型)=1–S公司(t型).
你可以计算累积风险率,成活率,并在第一台模拟数据累积分布函数此页面上进行如下配置。
t型 | 多次失败(丁) | 数以风险(右) | 危险率 | 生存概率 | 累积分布函数 |
---|---|---|---|---|---|
4个 | 三 | 7个 | 3/7 | 1 - 3/7 = 4/7 = 0.5714 | 0.4286个 |
7个 | 1个 | 4个 | 1/4 | 4/7*(1–1/4)=3/7=.4286 | 0.5714 |
11个 | 2个 | 三 | 2/3 | 3/7*(1–2/3)=1/7=0.1429 | 0.8571个 |
德意志北方银行 | 1个 | 1个 | 1/1 | 1/7*(1–1)=0 | 1个 |
这个利率在这个例子是基于离散失败次数,从而计算不一定遵循基于导数的定义什么是生存分析?
下面是如何输入数据并使用ECDF
.该数据并不一定是按升序排列。假设故障时间被存储在一个阵列是的
.
y=[4 7 11 12];freq=[3 1 2 1];[f,x]=ecdf(y,'频率',频率)
f=0.4286 0.5714 0.8571 1.0000 x=4 4 7 11 12
当您审查数据时,生命表可能如下所示:
时间(t型) | 编号失败(丁) | 审查 | 数以风险(右) | 危险率 | 生存概率 | 累积分布函数 |
---|---|---|---|---|---|---|
4个 | 2个 | 1个 | 7个 | 2/7 | 1 - 2/7 = 0.7143 | 0.2857个 |
7个 | 1个 | 0个 | 4个 | 1/4 | 0.7143 *(1 - 1/4)= 0.5357 | 0.4643 |
11个 | 1个 | 1个 | 三 | 2/3 | 0.5357*(1–1/3)=0.3571 | 0.6429个 |
德意志北方银行 | 1个 | 0个 | 1个 | 1/1 | 0.3571*(1–1)=0 | 1.0000 |
在任何给定的时间,被审查的项目也被考虑在风险总数中,并且危险率公式基于失败的数量和风险总数。在更新每个期间开始时的风险数字时,在上一期间失败和被审查的总数从该期间开始时的风险数字减少。
使用时ECDF
,还必须输入使用二进制的数组变量的审查信息。1输入截尾数据,以及确切的故障时间输入0。
y=[4 4 4 7 11 11 12];cens=[0 1 0 1 0 0];[f,x]=ecdf(y,“审查”,审查)
f=0.2857 0.4643 0.6429 1.0000 x=4 4 7 11 12
ECDF
,默认情况下,生成累积分布函数值。必须使用可选的名称-值对参数指定幸存者函数或危险函数。您还可以按如下方式绘制结果。
图()ECDF(Y,“审查”,审查,'功能','幸存者');
图()ECDF(Y,“审查”,审查,'功能',“累积风险”);
[1] 考克斯,D.R.和D.Oakes。生存数据分析.伦敦:查普曼和霍尔,1984年。
[2] 无法无天,J.F。寿命数据的统计模型和方法.新泽西州霍博肯市:威利 - InterScience的,2002年。
[3] Kleinbaum,D.G。,和M.克莱因。生存分析. 生物与健康统计。第二版。斯普林格,2005年。