论文部分内容阅读
研究背景:
腺肉瘤是女性生殖道罕见的恶性肿瘤,其发病率约占子宫肉瘤的5%。因其极低的发病率,现在仅有少数病例分析研究提供了一些影响预后的高危因素。生存、流行病学和最终结果(surveillance,epidemiology and end results, SEER)数据库是基于人群的癌症数据集,拥有极大的数据量。利用SEER数据库进行大样本研究可以极大地提高子宫腺肉瘤患者生存预测的准确性。此外,人工智能的飞速发展为临床工作带来了新的可能性,本研究利用深度学习技术为腺肉瘤患者开发个性化生存预测模型。
研究方法:
1.数据采集及处理:从SEER数据库中提取子宫腺肉瘤患者临床信息,排除多发性肿瘤及随访数据不完整的病例。排除重复和无用的变量,最终选择包括年龄、种族等在内的15个变量进行进一步分析。
2.深度学习模型建立及模型评价:以神经多任务逻辑回归模型(N-MTLR)为基础,建立深度学习神经元网络。并将该数据集随机拆分为训练集,验证集和测试集,利用训练集和验证集中的数据进行模型训练,通过独立的测试集进行模型能力的验证。同时比较生存预测深度学习模型与COX比例风险模型对同一数据集的预测效力。评估模型预测效力的主要指标为一致性指数(C-指数)及综合Brier分数。
3.个体生存预测曲线的绘制:根据传统子宫腺肉瘤分期系统绘制Kaplan-Meier曲线(K-M曲线)。利用深度学习模型对腺肉瘤患者进行基于生存及预后的风险评分分组。绘制个体化生存曲线对风险评分分组的预测有效性进行验证。
研究结果:
1.患者的统计学特征:本研究共纳入了从1973年到2014年登记在SEER数据库中的797例子宫腺肉瘤患者。数据分为训练集(n=519,65%)、验证集(n=143,18%)和测试集(n=143,18%)。经过相关性分析,15个纳入分析的变量包括年龄、患者诊断的年份、种族、西班牙裔与否、婚姻状况、期别、肿瘤直径、分化级别、淋巴结转移与否、切除淋巴结的数量、阳性淋巴结的数量、是否远处转移、肿瘤侵犯范围、手术与否和手术类型。
2.COX比例风险模型的生存预测性能:COX比例风险模型在生存预测中的C-指数为0.726,综合Brier分数为0.17。中位绝对误差为1.615,平均绝对误差为2.223。在绘制生存曲线时,预测的生存曲线部分区域绘制在实际生存曲线的置信区间之外,出现了较大的绝对误差。
3.深度学习模型的生存预测性能:生存预测深度学习模型在外部测试集中的C-指数为0.774,综合Brier分数为0.14。中位绝对误差为2.621,平均绝对误差为1.989。在绘制生存曲线时,几乎所有预测生存曲线的区域都出现在实际生存曲线的置信区间内。
4.子宫腺肉瘤患者的个体化生存预测:传统分期系统患者的K-M曲线显示Ⅱ、Ⅲ、Ⅳ期患者的生存率差异不显著。深度学习模型基于预后情况将患者分成3组。个体化生存曲线显示3组患者预后差异明显。
结论:
1.深度学习技术是对子宫腺肉瘤患者进行生存预测的有效方法。
2.深度学习模型比COX比例风险模型预测性能更好。
3.通过深度学习模型可以实现个性化的生存预测。
腺肉瘤是女性生殖道罕见的恶性肿瘤,其发病率约占子宫肉瘤的5%。因其极低的发病率,现在仅有少数病例分析研究提供了一些影响预后的高危因素。生存、流行病学和最终结果(surveillance,epidemiology and end results, SEER)数据库是基于人群的癌症数据集,拥有极大的数据量。利用SEER数据库进行大样本研究可以极大地提高子宫腺肉瘤患者生存预测的准确性。此外,人工智能的飞速发展为临床工作带来了新的可能性,本研究利用深度学习技术为腺肉瘤患者开发个性化生存预测模型。
研究方法:
1.数据采集及处理:从SEER数据库中提取子宫腺肉瘤患者临床信息,排除多发性肿瘤及随访数据不完整的病例。排除重复和无用的变量,最终选择包括年龄、种族等在内的15个变量进行进一步分析。
2.深度学习模型建立及模型评价:以神经多任务逻辑回归模型(N-MTLR)为基础,建立深度学习神经元网络。并将该数据集随机拆分为训练集,验证集和测试集,利用训练集和验证集中的数据进行模型训练,通过独立的测试集进行模型能力的验证。同时比较生存预测深度学习模型与COX比例风险模型对同一数据集的预测效力。评估模型预测效力的主要指标为一致性指数(C-指数)及综合Brier分数。
3.个体生存预测曲线的绘制:根据传统子宫腺肉瘤分期系统绘制Kaplan-Meier曲线(K-M曲线)。利用深度学习模型对腺肉瘤患者进行基于生存及预后的风险评分分组。绘制个体化生存曲线对风险评分分组的预测有效性进行验证。
研究结果:
1.患者的统计学特征:本研究共纳入了从1973年到2014年登记在SEER数据库中的797例子宫腺肉瘤患者。数据分为训练集(n=519,65%)、验证集(n=143,18%)和测试集(n=143,18%)。经过相关性分析,15个纳入分析的变量包括年龄、患者诊断的年份、种族、西班牙裔与否、婚姻状况、期别、肿瘤直径、分化级别、淋巴结转移与否、切除淋巴结的数量、阳性淋巴结的数量、是否远处转移、肿瘤侵犯范围、手术与否和手术类型。
2.COX比例风险模型的生存预测性能:COX比例风险模型在生存预测中的C-指数为0.726,综合Brier分数为0.17。中位绝对误差为1.615,平均绝对误差为2.223。在绘制生存曲线时,预测的生存曲线部分区域绘制在实际生存曲线的置信区间之外,出现了较大的绝对误差。
3.深度学习模型的生存预测性能:生存预测深度学习模型在外部测试集中的C-指数为0.774,综合Brier分数为0.14。中位绝对误差为2.621,平均绝对误差为1.989。在绘制生存曲线时,几乎所有预测生存曲线的区域都出现在实际生存曲线的置信区间内。
4.子宫腺肉瘤患者的个体化生存预测:传统分期系统患者的K-M曲线显示Ⅱ、Ⅲ、Ⅳ期患者的生存率差异不显著。深度学习模型基于预后情况将患者分成3组。个体化生存曲线显示3组患者预后差异明显。
结论:
1.深度学习技术是对子宫腺肉瘤患者进行生存预测的有效方法。
2.深度学习模型比COX比例风险模型预测性能更好。
3.通过深度学习模型可以实现个性化的生存预测。