您好,欢迎您

连续型变量的离散化(1)—— 回归模型中怎么检验连续型自变量是否满足线性这一前提条件?

2017年07月25日
作者:袁联雄  中山大学附属第三医院 (微信号:boy_for_)
来源:微信公众号“郑正有词”
很多朋友可能苦恼过为什么我的变量(如AST、HB、CRP、病毒DNA载量等)以连续型变量纳入时P>0.05,,以分类变量(如低、中、高分成3个等级)纳入时却P<0.05有统计学意义,又或者可能在想把连续型变量离散化成分类变量时会疑问我能否直接按百分位数(如按中位数划分成两类,三等分,四等分)划分为几组,这些都跟今天要讲的线性前提有关系。

很多朋友可能不知道我们常用的三大回归(线性回归、logistics回归和COX回归)都对自变量与结局变量或结局变量的函数有线性关系这一基本前提条件,但可能苦恼过为什么我的变量(如AST、HB、CRP、病毒DNA载量等)以连续型变量纳入时P>0.05,,以分类变量(如低、中、高分成3个等级)纳入时却P<0.05有统计学意义,又或者可能在想把连续型变量离散化成分类变量时会疑问我能否直接按百分位数(如按中位数划分成两类,三等分,四等分)划分为几组,其实这些都跟今天要讲的线性前提有关系。

2.jpg

如上图所示几种常见的非线性关系,非U型关系如果自变量取值相对较多的分布在拐点附近,或者如果是U型的关系,可能就比较容易出现以连续型变量纳入时P>0.05,,离散化后再纳入时却P<0.05;对于连续型变量离散成分类变量,如果是线性关系,那么以任意点作为cut-off值,理论上来说只要样本量足够大,都可以得到阳性结果,如果是U型的关系,cut-off值选得不好很可能就是没有统计学意义的,如果是S型,我们可以很明显的看到有两个拐点。因此,开始回归分析之前对连续型变量与结局(结局函数)之间的线性关系进行检验是很有用处的。

对于线性回归,检验方法非常简单,直接做连续型自变量与结局变量之间的散点图,看是否存在线性趋势即可。但对于logistics回归和COX回归,直接做散点图明显是行不通的,可以通过以下方式进行检验:

1、根据百分位数等比例划分为几个组,计算每一组结局事件的发生率,然后采用趋势卡方检验来检验线性趋势是否有统计学意义;或者将划分成几组后的分类变量纳入了logistics回归或者COX回归,计算得到各个类别的回归系数并做散点图,若回归系数直线上升或下降表示符合线性前提;

2、残差分析:不纳入关心的连续型变量,构建logistics回归或者COX回归,得到模型的残差(此时残差表示可能可以由我们关心的连续型变量来解释的数据变异),以模型的残差为Y轴,以关心的连续型变量为X轴,做散点图,如果呈现明显的线性趋势,表明满足线性前提;或者单独以关心的连续型变量为自变量,构建回归模型,同样做残差的散点图(此时残差已经扣除掉我们关心的连续型变量的影响,因此理论上来说残差应该与该连续型变量无相关关系),如果散点相对均衡的分布在y=0这条平行于X轴的直线上下两侧,那么也表示满足线性前提。细心的朋友可能会想到残差分析既然能探索连续型变量与结局变量或结局变量的函数之间的关系,那是否可以作为寻找cut-off值的方法呢?是的,残差分析可以帮助寻找cut-off值,具体内容待以后介绍!

 3、限制性三次样条函数(Restricted Cubic Spline, RCS),这是目前较为流行的处理非线性关系的统计方法,在NEJM、JAMA、BMJ等杂志的临床研究文章中时常能看到RCS的身影,如下面两幅图就是RCS的结果:
3.jpg

BMJ. 2016 Nov 16;355:i5735. doi: 10.1136/bmj.i5735

该图中粗线条表示的是RCS拟合的连续型变量与结局之间的函数关系,阴影部分表示95%置信区间。线性或者非线性通过图趋势图和自由度df来判断,df大于1表示非线性,等于1表示线性,df等于0为常数,图中左侧是非线性,右侧是线性。
4.jpg

JAMA. 2016 May 24-31;315(20):2200-10. doi: 10.1001/jama.2016.4447

图中粗线条同样表示RCS拟合的连续型变量与结局之间的函数关系,虚线表示95%置信区间。这个图中分别给出了非线性和线性的检验P值。需要提醒的是,尽管RCS也可以探索连续型变量与结局之间的函数关系,但不能用来探讨cut-off值,具体原因待以后介绍!

参考文献

1. Mitchell H. Katz. Multivariable Analysis: A Practical Guide for Clinicians and Public Health Researchers; 2011, 3rd Edition
2. McLernon DJ, et al. Predicting the chances of a live birth after one or more complete cycles of in vitro fertilisation: population based study of linked cycle data from 113 873 women. BMJ. 2016 Nov 16;355:i5735. doi: 10.1136/bmj.i5735
3. Mills KT, et al. Sodium Excretion and the Risk of Cardiovascular Disease in Patients With Chronic Kidney Disease. JAMA. 2016 May 24-31;315(20):2200-10.