论文部分内容阅读
目的:探讨基于影像组学和临床特征的机器学习方法预测EGFR(epidermal growth factor receptor)突变的非小细胞肺癌(non-small cell lung cancer,NACLC)一线EGFR-TKI(Tyrosine kinase inhibitors)靶向治疗的无进展生存时间。方法:本研究共纳入100例19del或21L858R突变患者,均接受EGFR-TKIs作为一线治疗。从患者治疗前CT图像中提取放射组学特征,使用22种特征选择方法,8个分类器排列和组合后构建了176个预后模型。先后比较了仅影像组学特征和影像组学特征加临床特征2种建模方法所得176个模型的平均性能,选择性能较好的方法进行后续的模型比较。采用AUC、ACC、敏感性和特异性评价各模型,获得最佳的综合性能模型。另外,将最终纳入模型的特征进行组间差异比较。使用最优模型计算患者的危险得分,根据中位危险得分将患者分为高危组和低危组。采用Kaplan-Meier和log-rank检验方法对高危组和低危组的生存曲线进行评价和比较。结果:每位患者均提取了114个特征,包括107个放射组学特征,和年龄、性别、吸烟状态、分期、突变类型、靶向药物、疗效评价在内的7个临床特征。本研究在建模过程中发现,不同特征选择方法和不同机器学习方法构建的鉴别模型性能差异较大;仅使用前10个最优的影像组学特征构建模型性能不佳,所有模型的平均AUC为0.524;使用临床特征加影像组学特征构建的所有模型的平均AUC为0.591(P=0.000)。因此本研究采用影像组学特征结合临床特征构建模型。纳入模型的10个最优特征包括4个基于形状的特征(elongation,flatness,least axis length,major axis length),1个基于一阶的特征(interquartile range),2个基于纹理的特征(Small Area Emphasis,Difference Variance)和3个临床特征(吸烟情况、突变基因、疗效评估)。对比176个鉴别模型,采用gini-index+Logistic模型获得最佳性能(AUC=0.797,ACC=0.722,sensitivity=0.758,specificity=0.693)。将纳入模型的10个特征进行组间差异比较,只有2个纹理特征:GLSZM(Small Area Emphasis)(p=0.003),GLCM(Difference Variance)(p=0.024);两个临床特征:突变基因(p=0.030)和疗效评估(p=0.000)是EGFR突变晚期非小细胞肺癌一线靶向治疗的无进展生存时间的独立危险因素。使用gini-index+Logistic模型计算每位患者的危险评分,以中位危险评分0.518(IQR,0.023-0.987)作为截断值将患者进行危险分层,KM存活曲线展示了较好的分层结果(p=0.000)。结论:我们的研究表明影像组学结合临床特征可以用来预测EGFR-TKI靶向治疗的无进展生存时间。选择多种建模方法来筛选出最优模型可提高预测准确性。采用gini-index+LR模型获得了最佳性能(AUC=0.797,ACC=0.722,sensitivity=0.758,specificity=0.693)。研究发现GLSZM(Small Area Emphasis),GLCM(Difference Variance),突变基因和疗效评估是EGFR突变晚期非小细胞肺癌一线靶向治疗的无进展生存时间的独立危险因素。