生存分析
生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑时间是否出现,还考虑事件出现的时间长短,因此该类方法也被称为事件时间分析(time-to-event analysis)。 生存分析也广泛用于社会学,经济学,工程学等领域。
一.生存分析中的基本概念
生存分析资料通常采用纵向随访观察获取,和一般资料相比具有如下特点:1. 同时考虑生存时间和生存结局;2. 通常含有删失数据;3.生存时间的分布通常不服从正态分布
1.生存时间
“事件”可细分为起始事件(initial event)与终点事件(terminal event),从起始事件到终点事件之间所经历的时间跨度为生存时间(survival time),常记为随机变量T,T>=0。 生存时间例子:急性白血病从发病到死亡的时间,冠心病两次发病的时间,戒烟开始到重新吸烟的时间等,起始事件,终点事件,时间单位应在研究设计阶段明确定义。 生存时间一般不呈正态分布,而呈偏态分布,Weibull分布,Gompertz分布等
2.删失
生存结局(status)分为死亡和删失两类。死亡是感兴趣终点事件,其他终点事件或者生存结局都归为删失(censoring,也称街尾或终检)。产生删失的原因有:1.研究到截止日期时,感兴趣事件没有发生;2. 失访;3.中途退出;4. 死于其他时间 个体生存时间可以确切的获取,称为完全数据,个体生存数据为删失值,得不到确切的生存时间,称为不完全数据。
二.生存分析中的统计方法
由于生存时间一般不服从正态分布,且需要考虑到是否为缺失值,所以生存分析有其独特的分析方法
1.描述统计
根据样本生存资料估计总体生存率及其他有关指标(如中位生存时间),如估计使用某药物的HIV患者的生存率,生存曲线以及中位生存时间等, 常采用Kaplan-Meier法(也叫乘机极限法)进行分析,对于频数表资料则采用寿命表法进行分析,计算生存率需考虑生存时间的顺序,属于非参数统计方法。
2.比较分析
对不同生存率进行比较分析,如比较使用与不用某药物的HIV阳性患者的生存率是否不同,常采用log-rank检验与Breslow检验。 检验无效假设是两组或多组总体生存时间分布相同,而不对其具体形式做要求,所以也属于非参数检验。
3.影响因素分析
通过生存分析模型来探讨影响生存时间的因素,通常以生存时间和生存结局作为因变量,而将其影响因素,比如年龄,性别,药物使用等作为自变量。 通过拟合生存分析模型,筛选影响生存时间的保护因素和有害因素。方法有半参数法和参数法两类。 常用的半参数法为Cox比例风险模型。参数法有指数分布法,Weibull分布法,Gompertz分布法等回归模型。
三.生存率的估计和生存曲线
常采用Kaplan-Meier法估计生存率,对于频数表资料可采用寿命表法估计生存率
1.Kaplan-Meier法
Kaplan和Meier在1958年提出,也叫乘机极限法。 以生存时间为横轴,生存率为纵轴绘制的阶梯状图形称为Kaplan-Meier生存曲线(survival curve),简称K-M曲线。 中位生存时间又称生存时间的中位数,表示刚好有50%的个体其存活期大于该时间。它是生存分析中最常用的概括性统计量。
2.寿命表法
Kaplan-Meier法使用于小,大样本,应用范围广泛。如果生存资料没有原始数据,数据已经总结称若干段的频数形式,或者生存资料样本量较大, 则可采用寿命表法,
四.生存率的比较
对于两组或者多组生存率的比较,最常用的方法有log-rank检验(也称Mantel-Cox检验)和Breslow检验(也称Wilcoxon检验)。
1.log-rank检验
2.Breslow检验
五.Cox比例风险回归模型
前面介绍的KM法和寿命表法可以进行单个分组变量的生存分析,为了同时分析众多变量对生存时间和生存结局的影响,需要采用多因素生存分析分析的方法。多因素生存分析法包含参数法和 非参数法,参数法需要满足特定的分布,有局限,而半参数法的假定较少,特别是Cox比例风险回归模型是目前进行多因素生存分析的主要方法。
Okokok,这篇就到这吧,内容不少了,下一篇再主要来讲Cox回归模型吧!