您好,欢迎您

倾向性匹配,你需要注意什么?

2018年05月28日
作者:袁联雄老师
来源:郑正有词微信公众号

1.jpg观察性研究由于组间基线特征不均衡,不能像RCT一样直接比较组间效应,倾向性匹配(Propensity Score Matching, PSM)近年来已经被广泛应用于观察性研究来处理组间不均衡问题。尽管研究证明PSM有很多优点,但它并不是万能的,在实际应用过程中仍然有一些需要注意的地方:

第一:实验组与对照组样本量问题。PSM最适合对照组样本量远远大于实验组的情形,如10倍以上,此时对于每个实验组的病例,有较大的可能在对照组找到匹配的病例。对于1:1的情形,也不是不可以做PSM,此时需要两组都有较大的样本量,通过卡钳匹配筛选出一个相对均衡的数据子集;

第二:匹配变量问题,即在构建logistics回归计算Propensity Score时需要考虑哪些因素。观察性研究不能像RCT一样直接比较组间效应最大的诟病是存在大量的混杂因素。根据流行病学定义,混杂因素是指同时与研究因素和研究疾病均有关,且不是因果链上的中间因素,因此临床上认为可能是混杂因素的变量都要尽可能的纳入。事实上,任何与结局变量有关的因素都应该尽可能的纳入,想象一下,A因素与结局变量有关,与分组可能无关,但在我们的数据中,A因素在PSM后的组间分布不均衡,那此时的组间差异到底是处理效应还是A因素的效应还需要进一步的分析。因此,在考虑纳入哪些匹配变量时不再是像多因素分析一样基于P值,而应该基于临床经验、理论和文献依据。

第三:匹配方法问题。常用的匹配方法有最近邻匹配和卡钳匹配。其中卡钳匹配是在最近邻匹配的基础上加了一个限定,即两个匹配的对子的距离或差异不能超过一个给定的最高值,对于任一实验组的病例,如果其与对照组中所有病例的最小差异超过这个给定的最高值,则这个实验组的病例将被剔除掉。因此对于实验组而言,最近邻匹配是全匹配的,即所有实验组的病例都可以在对照组找到一个“匹配”的病例,但这个匹配程度有可能很好,也有可能很差,特别在对照组样本量相对较小的时候,很有可能出现匹配度很低的对子,因此对于匹配后的组间均衡性评估仍然是个必要的步骤。而卡钳匹配则可能不是全匹配,只有部分实验组的病例能找到匹配的对子,而这些无法匹配的病例通常是比较大可能分配到实验组的病例,此时匹配后的实验组有可能与原来的实验组特征差别较大,已经不再能代表原人群,此时虽然组间是否存在差异可以直接判定,但如何定义匹配后的两个人群特征,如何下结论需要慎重考虑。

第四:匹配样本与未匹配样本差异问题。如第三点所述,对于卡钳匹配,匹配后的实验组有可能与原来的实验组样本特征差别较大,已经不再能代表原人群,而对于对照组,不管是卡钳匹配还是最近邻匹配,都有可能存在这个问题。因此做了PSM后,还需要比较下匹配样本与未匹配样本的特征,而这对于最后结果的解释、结论的外推是非常重要的!

2.jpg

评论
2019年09月06日
张庆民
胜利油田中心医院 | 肿瘤科
学习