您好,欢迎您

连续型变量的离散化(6)—— 再谈两类常用方法的比较

2017年10月07日
作者:袁联雄 中山大学附属第三医院(微信:boy_for_)
来源:微信公众号“郑正有词”

还记得在本系列贴的第2期“常用方法分类及浅析“的最后,袁老师对两类方法做了个简单的总结:”以残差分析法、半参数法等为代表的第一类方法不以预测效果而根本目的,更倾向于寻找符合临床实际和数据客观规律的分组方法,而以最大选择检验、ROC曲线、决策树为代表的第二类更倾向于寻找预测效果最好的分组方法,但有可能cut-off值不一定很切合临床实际的风险“。在本系列贴的第2-5期已经介绍了多种连续型变量离散化的方法,有属于第一类的,也有属于第二类的,今天我们就来看看这两类方法找到的cut-off值是否有所不同。

以第3期 “ROC曲线如何进行连续型变量离散化”中使用的数据为例,预测准确度最高对应的optimal cut-off值为1.92,那么如果换成第一类方法,结果是否还是1.92呢。分别采用残差分析法和半参数法绘制自变量x与结局变量status之间的函数关系图,其中残差分析法新产生了一个自变量x1用于产生与x无关的残差。

图像 2017-10-5,下午12.03.jpg图像 2017-10-5,下午12.03 (1).jpg

从图中可以看到自变量与x不是线性关系,结局变量的函数先随x增加而逐渐增加,在7左右达到最大,之后随x的增加而逐渐减少,即从函数关系来说,在x=7左右出现拐点,在拐点前后自变量x与结局变量之间的函数关系是不一样的,如果根据函数关系来选测cut-off值得话就应该是7左右,这与ROC的结果明显不同。

接下来我们用segment包计算下cut-off值,理论上来说, segment包寻找cut-off的原理与第一类方法一致,因此其计算出来的cut-off应该更接近第一类算法的结果。

从上面两张图的结果可以看到segment包得到的结果确实与第一类方法得到的结果一致。

本期帖子与本系列贴的第2期相互呼应,目的在于告诉大家:

1、连续型变量离散化常用的两类方法各有特点,应用环境有所不同:以残差分析法、半参数法等为代表的第一类方法不以预测效果而根本目的,更倾向于寻找符合临床实际和数据客观规律的分组方法,而以最大选择检验、ROC曲线、决策树为代表的第二类更倾向于寻找预测效果最好的分组方法,但有可能cut-off值不一定很切合临床实际的风险

2、两类方法得到的cut-off值可能是迥异的,因此在选择离散连续型变量的方法时需要结合分析目的和临床应用综合考虑,选择相对合适、便于解释的分析方法。

责任编辑:肿瘤资讯-Ruby