生存分析是临床研究中一种常用方法,主要用来处理考虑发生时间的二分类结局变量。结局可以是死亡、疾病发生或任何其他感兴趣的二分类结局事件。如果我们同时关心结局发生的时间,那么可以将此类数据统称为生存数据。
生存分析的3种常见方法
1
Kaplan-Meier法
Kaplan-Meier法简称K-M法,又称 乘积极限法(Product-limit Estimate) 是生存分析方法中最常用的一种,主要用于 估计患者生存率 和 绘制生存曲线 。
Kaplan-Meier曲线(生存曲线)以生存时间为横轴,生存率S (tk)为纵轴,绘制而成的连续型的阶梯形曲线,用以说明生存时间与生存率之间的关系。
生存曲线一般是平滑而水平延伸的,当某个时间点一旦有患者发生终点事件(如死亡),曲线就会垂直下降,下降幅度是该时间点上患者发生终点事件例数和上一个时间节点后随访的患者样本量的比。一般情况下,不同组生存曲线不交叉,但 如果有交叉 ,则 提示可能存在混杂因素 ,可以用校正方法(如逆概率加权法),获得校正后的K-M曲线。
2
Log-Rank test
当 两组或多组生存曲线(生存率)进行比较 时,常用的假设检验方法是 对数秩检验(log-rank test ) ,又称 时序检验 ,属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同,检验统计量为卡方。
需要注意的是,选用Log-Rank检验对样本生成存率进行比较时,要求各组生存曲线不能交叉。当出现生存曲线 交叉 时,可以使用 Two-stage方法 。对于不同组生存曲线的比较,除了log-rank检验外,还可以选用Breslow检验方法。区别在于, Log Rank检验对远期差异敏感 ,而 Breslow检验对近期差异敏感 。
3
Cox回归(Cox proportional-hazards model)
Cox回归是生存分析的重要方法,全称是“ Cox比例风险模型 ”。该模型以 生存结局和生存时间为因变量 ,可同时分析多个因素对生存期的影响,可分析截尾数据,且不要求数据分布类型。
Cox回归没有直接利用生存时间数据,不涉及生存率的估计和比较等内容。需要注意的是, Cox回归使用需要满足等比例风险假定 ,如果不满足,可以选择分层Cox回归或时依Cox回归。
Log-rank法与单因素Cox回归可能会出现结果不一致的情况,已知Log-rank法属非参数法,cox属于半参数法, 在符合条件情况下,参数检验的效能高于非参数检验,可以以Cox为准 。
生存分析报告中的重要部分
一般,在临床研究中,我们需要规范生存数据分析结果的报告形式,这样才能更好地回答研究问题。以下是生存分析需要报告的几个重要部分。
1
结局定义
结局定义明确至关重要。例如结局可设定为:
①任何原因导致的死亡
②疾病进展
③某种疾病的确诊
对于这些结局需要提供更加具体的信息,例如:疾病进展如何定义?由谁测量?是否包括死亡在内?具体判断标准?
为了便于读者对研究结果进行评价和比较,通常还需要描述结局资料获取的方式(比如前瞻性随访、公开资料获取、医疗数据、自发报告等)。
2
测量起始时间
测量的起始时间即生存分析的时间起点。 在临床试验中通常将随机化的时间作为起始点 ,在观察性研究中可能是研究对象进入试验的时间、出生日期或某些重要事件发生的时间,如第一次心梗、手术或疾病确诊的日期。
对时间起点的选择应当慎重。临床试验将随机化时间作为测量起点,在样本量较大时可以保证组间可比。对于观察性研究来说,将测量起点设定为某些重要事件发生的时间比设定为进入研究的时间可能更好。在生存分析的结果报告中应当报告测量起点。
3
危险集(At Risk)
危险集,即 某个时间点有发生结局风险的所有人的集合 。如果观察对象在研究开始之后的某个时间点,既没有发生结局事件,也没有退出研究,那么该研究对象处于该时刻的危险集中。
生存曲线通常用来描述不同时点的危险集以及发生结局的人的比例(即结局发生率)。需注意的是,在危险集中人数比较少时,结局发生率的估计是不准确的,这种情况通常出现在随访的后期,也就是生存曲线的末端部分。
4
截尾(Censoring)
研究中未必能够观察到所有患者的结局,这些患者将被截尾。例如研究要观察的结局是死亡,但是 研究结束时 仍有部分患者存活,这些患者的数据不完整, 无法得知其确切的发生结局的时间 , 即为截尾数据 。生存分析中要求截尾是随机的,结果中描述患者截尾的原因有助于读者判断该条件是否成立。
把握好这些基本信息后,接下来就是对临床数据进行具体的挖掘与分析。一般而言,对生存数据的挖掘,首先要先报告患者的基线特征信息,其次也可以给出生存时间的描述性结果。而其图片结果呈现的方式最常见的则是 Kaplan-Meier图 和 累积发病率图(Cumulative incidence plot) ,这两种图片的具体操作方法在 《医学数据挖掘案例与实践》 一书中展现得淋漓尽致,读者只要按图索骥便能获得美美的生存分析曲线图。

另外,本书从医学科研中的实际问题出发,以案例的形式深入浅出地介绍了近年来崭新的医学数据挖掘技术,包括 决策树模型 、 支持向量机 、 随机森林分类 、 关联规则 、 贝叶斯网络构 建等,并详细介绍了数据挖掘软件 SPSS 、 SAS 、 R 等的操作步骤,重点突出实用性和可操作性,以期提高读者对医学科研数据的深层次处理与分析的能力。
本书既适用于医学院校本科生及研究生、医学基础及临床科研工作者和相关技术人员作为教材,也可作为科学研究的参考用书。
如今免费送书在即, 限量300本 ,你还不快快行动么?打开微信 关注公众号 科研好书周周送 回复关键词 医学数据挖掘案例与实践 免费领取《医学数据挖掘案例与实践》