首页 > 文章详情

2022 WCLC新研说 | 郭兰伟博士：中国非吸烟女性肺癌发病风险预测列线图，有助于识别高危人群，提高筛查收益

2022年08月08日

整理：研值圈

来源：研值圈

列线图是一种通过给出特定临床事件概率的数值估计，同时结合肿瘤学结果的关键因素来直观评估风险的可靠工具。将列线图应用在肿瘤风险预测中具有重要的临床指导意义。2022年国际肺癌研究协会（IASLC）世界肺癌大会（WCLC）已于2022年8月6日至9日隆重召开。在本次WCLCL大会中，河南省癌症中心、河南省肿瘤医院、河南省肿瘤防治研究办公室郭兰伟博士及其团队的“中国非吸烟女性肺癌发病风险预测列线图”相关研究成果入选口头报告。对此，【研值圈】特别邀请到郭兰伟博士就本研究中构建“肺癌风险预测列线图”的步骤、采用的统计学方法以及研究结果等内容进行深入解读，现整理如下，供大家学习参考。

郭兰伟

北京协和医学院博士郑州大学硕士生导师

中国临床肿瘤学会（CSCO）统计小组青年委员

中国肺癌/乳腺癌/结直肠癌筛查与早诊早治指南工作组成员
中国医疗保健国际交流促进会胰腺疾病分会青年学组委员
Cancer Innovation杂志第一届青年编委
河南省卫生健康科技创新优秀青年人才
北京健康促进会临床研究专家委员会委员
河南省预防医学会肿瘤预防与控制专业委员会委员
河南省肿瘤医院第五届医学伦理委员会委员

主持国家自然科学基金、省自然科学基金、省科技攻关项目
以第一作者/通讯作者发表SCI和中华系列论文30余篇
参编论著九部
获河南省科学技术进步一等奖、二等奖

在癌症风险预测中应用愈发广泛的列线图

郭兰伟博士：列线图，还有一个更为中国研究者所熟知的名称——诺莫图（Nomogram图），是建立在多因素回归分析的基础上，将多个预测指标进行整合，然后采用带有刻度的线段，按照一定的比例绘制在同一平面上，从而用以表达预测模型中各个变量之间的相互关系。

简单的说，就是通过构建多因素回归模型（常用的回归模型，例如Cox回归、Logistic回归等），根据模型中各个影响因素对结局变量的贡献程度（回归系数的大小），给每个影响因素的每个取值水平进行评分，然后再将各个评分相加得到总评分，最后通过总评分与结局事件发生概率之间的函数转换关系，从而计算出该个体结局事件的预测值。

列线图包括三个方面：

图片3.png

图1

1. 预测模型中的变量名称：每一个变量对应的线段上都标注了刻度，代表了该变量的可取值范围，而线段的长度则反映了该因素对结局事件的贡献大小。

2. 得分：包括单项得分，即图1中的Point，表示每个变量在不同取值下所对应的单项分数，以及总得分，即Total Point，表示所有变量取值后对应的单项分数加起来合计的总得分。

3. 预测概率：即图1中的Risk，表示患某病的风险。

列线图最大的优点就是将复杂的回归方程，转变为了可视化的图形，使预测模型的结果更简易可读，更方便对患者病情进行评估，对于我们这项研究来说，更方便筛查人群评估自己的发病风险。

对于本研究中构建“肺癌风险预测列线图”的步骤解读

郭兰伟博士：女性非吸烟者数据来自于河南省开展的国家重大公共卫生专项“城市癌症早诊早治项目”，该项目在河南城市地区开展针对城市高发的五大类癌症（肺癌、乳腺癌、上消化道癌、结直肠癌和肝癌）的危险因素调查、癌症筛查和卫生经济学评估工作。针对各癌种高危人群，开展LDCT筛查肺癌；乳腺超声和X线（钼靶）联合筛查乳腺癌；腔镜和病理诊断筛查上消化道癌和大肠癌；腹部超声和AFP联合筛查肝癌。

筛查对象为当地户籍常住人口，截止到2019年已覆盖全省8个城市（郑州市、驻马店市、安阳市、洛阳市、南阳市、焦作市、新乡市和濮阳市），共完成282,377人调查问卷的收集，其中非吸烟女性151,834人，随访到2020年3月份共发生204例肺癌。

对于协变量的识别，首先在项目设计上，查阅参考文献，并结合肺癌流行病学专家、临床诊断学等专家意见，筛选出所有可能影响肺癌发生的危险因素。但鉴于这些危险因素在全面性上的不足，因此需要考虑自身的问卷设计要求；其次，在模型构建方面，采用多种统计学方法，评估纳入不同危险因素时的模型区分度和拟合度，根据评估结果，反复调整纳入的危险因素的种类、个数、筛选方法，直至获得区分度和拟合优度最佳的预测模型。

本研究使用单独的训练集样本来构建模型，以及单独的验证集样本来测试模型。本研究中列线图的作用是预测非吸烟女性肺癌的发病，首先要识别可能的协变量，上文中也介绍了如何识别协变量，需要注意的是，确定变量所考虑的通常是数据的可及性和临床意见而不是统计的显著性，比如说可以纳入P<0.1甚至是<0.15的变量，并不局限于P<0.05；其次要选择使用的具体模型，因为我们的数据包含结局变量和时间变量，是典型的time to event数据，因此使用Cox比例风险模型建模是较合适的，当然也可以采用Logistic回归模型。之后使用模型选择预测因子，即进行多因素Cox回归。在这里一定要注意样本量的问题，训练集中结局数量（死亡人数/发病人数）应大于预测变量数的10倍，从而使Cox模型预测概率的误差小于10%。最后通过验证集来确定最终模型。而本研究的一个局限性就在于只进行了内部验证，没有进行外部人群验证。

本研究中构建列线图所采用的统计学方法

郭兰伟博士：本研究采用了多种统计学方法，为的是尽可能准确地预测肺癌发病。首先，采用了Cox比例风险模型筛选预测因子。其次通过预测的风险的50%和84%间距将人群分成了低、中、高风险三组，并使用K-M曲线和log-rank检验验证了三组人群发病风险具有显著统计学差异。之后通过ROC曲线下面积（AUC）、bootstrap重采样方法（bootstrap resampling）和交叉验证（cross-validation）以验证模型的区分度（Discrimination，区分具有不同结局事件的患者的能力），通过校准图验证模型的校准度（Calibration，预测结局事件与实际结局事件的差距），并进行了内部验证。

通过外部验证后，未来该模型可作为一种工具对非吸烟女性进行高危人群浓缩，从而提高筛查收益

郭兰伟博士：本研究招募了151,834名非吸烟女性受试者，按照1:1随机分成训练集和验证集。通过多因素Cox回归模型筛选，共纳入了年龄、慢性呼吸道疾病史、一级亲属肺癌家族史、绝经状态和乳腺良性疾病史5个独立预测因素。利用这5个预测因素，我们绘制了1年、3年和5年肺癌风险预测列线图。训练集中1年、3年和5年肺癌风险的AUC分别为0.762、0.718和0.703，均大于0.7。同样在验证集中，该模型显示了良好的区分度。

流行病学研究数据显示，全球女性肺癌约53%不能归因于吸烟，而对于中国女性这一比例为86.1%。此外，中国女性肺癌危险因素暴露及发病规律有自身特点，其中最为关键的是，尽管女性吸烟率远低于欧美发达国家（中国、美国吸烟率分别为2.4%、23.6%），但肺癌发病率较为接近（中国和美国基于世界人口标化的肺癌发病率分别为22.8/10万、30.4/10万）。这提示基于吸烟为主要指标的现行国际肺癌筛查高危人群标准可能不太适用于中国女性，尤其是非吸烟女性。对非吸烟女性进行肺癌筛查应避免筛查早诊中漏诊、误诊和过度诊疗，才能使筛查获得最大收益。但我国医疗技术水平地区间发展不平衡，癌症早期诊断难度大、技术要求高，提供客观、有效、简单易行的分流管理工具，是协助提高基层医师诊断能力、提高基层癌症筛查医疗服务可及性、促进基层开展优质癌症筛查和早诊服务的基础。

因此，本研究基于中国大规模肺癌筛查项目，在非吸烟者女性中开发了一个简单的肺癌风险预测模型，并进行了内部人群验证。结果显示该模型具有良好的区分能力，通过外部验证后，未来可作为一种工具对非吸烟女性进行高危人群浓缩，从而提高筛查收益。

责任编辑：Mathilda
排版编辑：Mathilda

研值圈Sci Value Hub—为医疗创新贡献价值