探究变量之间的关系是数据挖掘中的一个基本分析内容,对于常规的离散型或者连续型变量,有很多的方法可以用于挖掘其中的关系,比如线性回归,逻辑回归等等。然而有一类数据非常的特殊,用回归分析等常用手段出处理这类数据并不合适,这类数据就是生存数据。

常规数据在表示时,只需要一个值,比如患者的血压,性别等数据,不是连续型就是离散型;生存数据则有两个值,第一个是生存时间,可以看做是一个连续型的变量,第二个是生存事件,可以看做是离散型的变量。

比如分析治疗后的患者生存情况,在观测期间,可以看到不同患者的存活时间,这个值就是生存时间,而有些患者可能在观察期内出现死亡,复发等情况,死亡或者复发则称之为事件。

生存分析是既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。

生存资料分析

生存分析就是针对生存资料的分析。所谓生存资料就是描述寿命或者一个发生时间的数据。更详细的说一个人的生存时间的长短与许多因素有联系的,研究因素与生存时间的联系有无及程度大小,就是生存分析。

生存资料不同于其它分析资料,有一个特殊的地方就是缺失值的处理,对于常规数据,缺失值很多时可以直接丢掉,只有少量缺失值时可以用算法进行填补,而生存数据中的缺失值则不同。

在观测期间,患者可能出现了其他的事件导致后续得不到对应的生存数据,比如患者出现意外事故身亡了,后续的生存数据就会缺失,很显然生存数据是不能用算法填补的,一定要是实际观测的结果。

但是这个数据也不能直接丢掉,因为从观测开始到患者意外身亡的这段时间内的生存数据是有意义的,在进行生存分析时,这部分数据也可以利用起来。

生存可以指人或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常工作(相对于失效或故障),甚至可是是客户的流失与否等。

在生存分析中,研究的主要对象是寿命超过某一时间的概率。还可以描述其他一些事情发生的概率,例如产品的失效、出狱犯人第一次犯罪、失业人员第一次找到工作等等。

在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。

在医学研究中,常常用追踪的方式来研究事物发展的规律。如,了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。

生存分析主要内容

生存分析的主要内容包括:

l描述生存过程,即研究生存时间的分布规律

l比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

l分析危险因素,即研究危险因素对生存过程的影响

l建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

生存分析主要方法

生存分析方法可以分为描述法、参数法、半参数法和非参数法。

1.描述法

根据样本观测值提供的信息,直接用公式计算出每一个时间点或每一个时间区间上的生存函数、死亡函数、风险函数等,并采用列表或绘图的形式显示生存时间的分布规律。

优点:方法简单且对数据分布无要求

缺点:不能比较两组或多组生存时间分布函数的区别,不能分析危险因素,不能建立生存时间与危险因素之间的关系模型。

2.非参数法

估计生存函数时对生存时间的分布没有要求,并且检验危险因素对生存时间的影响时采用的是非参数检验方法。

常用方法:乘积极限法、寿命表法

优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,对生存时间的分布没有要求。

缺点:不能建立生存时间与危险因素之间的关系模型。

3.参数法

根据样本观测值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。

生存时间经常服从的分布有:指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布。

优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型。

缺点:需要事先知道生存时间的分布

4.半参数法

不需要对生存时间的分布做出假定,但是却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响,最著名的就是COX回归。

优点:可以估计生存函数,可以比较两组或多组生存分布函数。可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布。

生存分析案例

研究性别对于肺病生存率有无区别,收集数据下列信息

time:生存时间(单位天)

status:0=存活,1=死亡

sex:1=男,2=女

操作步骤

1)按步骤将数据导入

2)选定寿命表分析方法

3)对各选项进行设置

其中注意状态设置:选取表示事件已发生的值

4)设置完所有选项后确认,得到结果

存活表:该表给出了男女对应时间内存活和死亡人数,并计算了存活率、风险比等统计量

中位数生存时间:即生存率为50%时,生存时间的平均水平;

由此可知:生存时间的平均水平女士高于男士

生存函数:男士较女士累计生存率下降快

返回搜狐,查看更多

责任编辑: