乳腺癌患者预后模型的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:imlym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据世界卫生组织资料统计,乳腺癌的发病率位居女性恶性肿瘤首位,已经成为严重威胁女性健康的疾病之一。虽然我国乳腺癌的发病率目前还不及欧美等发达国家,但是死亡率却呈现逐年提高的趋势。因此,探索影响乳腺癌患者预后的各种因素、对乳腺癌及其治疗方法进行系统深入的研究也刻不容缓。 2005年,Delen以数据挖掘的方法、在海量数据基础上建立了乳腺癌生存预测模型,这是在国际上以数据挖掘方法系统建立乳腺癌患者预后分析模型的首篇论文。但是,Delen的研究过程存在一些明显的缺陷。在对SEER原始数据进行预处理后,其中5年生存的样本数占总数的46%;而美国国家癌症研究所于2000年公布的官方数据表明美国乳腺癌病人的5年生存率为90.55%。两者之间存在较大差距。同时,Delen对数据预处理的结果也掩盖了原始数据中分布不平衡的问题,从而未能采取相应的弥补措施。因此,国外已有学者质疑其研究过程的合理性和科学性。 本文分析Delen研究过程中的不足之处,提出针对性的处理方案,使研究过程更加合理和科学。在以5年生存率为指标,建立基于Logistic回归、人工神经网络和决策树的数据挖掘方法系统地建立乳腺癌患者的预后模型,分析影响乳腺癌患者预后的各种因素。 1.对来自于SEER乳腺癌登记资料库中的数据进行预处理,为模型训练提供了正确的数据基础。数据预处理步骤主要包括数据清理、数据集成、数据变换和数据归约。预处理后,其中5年生存的样本数占总数的87%,样本分布和美国癌症协会2006年公布的官方数据(5年生存率为88%)基本吻合。 2.经预处理后的数据类别分布呈现明显的不平衡状态,这种不平衡会严重影响模型的性能。本文采用过抽样、欠抽样、过抽样与欠抽样相结合的方法来弥补这种数据类别分布不平衡对模型性能的不利影响,并以实验结果评估了不同抽样技术的效用。10折分层交叉验证的实验结果表明:过抽样技术、欠抽样技术、过抽样和欠抽样相结合的方法都是在样本分布比例大致相同的情况下,模型的性能达到最优。 3.根据乳腺癌患者数据的特点、并考虑模型本身的性能特点,本文分别以Logistic回归、BP人工神经网络和C5决策树建立分析乳腺癌患者预后及其影响因素的模型,并以实验分别验证模型的性能。三种模型理论基础完全不同:决策树的分类是基于逻辑的机器学习方法,通过对训练样本的学习,建立分类规则;Logistic回归是基于非逻辑的坚实的数学公式的统计学方法;人工神经网络是类似“黑盒”的非线性模型。 4.采用以ROC下的曲线面积AUC为主的一系列评价指标,分别评估和比较基于Logistic回归、于人工神经网络和决策树的乳腺癌患者预后及其影响因素的模型。由于三种抽样技术的准确率、特异性、灵敏度和AUC均无显著性差异,综合考虑抽样成本和模型性能,确定当采用欠抽样技术(抽样比例为15%)建立乳腺癌患者预后模型。10折分层交叉验证的实验结果表明:乳腺癌患者预后模型的AUC分别为0.7625(Logistic回归)、0.7597(人工神经网络)、0.7484(决策树)。经统计学分析,上述三种模型的性能并无显著差异。 5.采用Bagging算法验证模型是强学习算法。稳定性是Bagging算法能否提高模型预测性能的关键因素。采用Bagging算法前后,模型的性能并无统计学意义上的显著差异。Bagging算法对稳定的学习算法效果不明显,这也间接证明了本文建立的基于Logistic回归、人工神经网络和决策树的乳腺癌预后模型是稳定可靠的。 6.在模型是稳定可靠的基础上解释模型,分析影响乳腺癌患者预后的各种因素。通过Logistic回归的回归系数和一元优势比的估计值;人工神经网络的灵敏度分析;决策树的产生式规则来解释模型。 结论:本文在正确进行数据预处理及有效补偿原始数据分布不平衡的基础上,建立的三种乳腺癌患者预后分析模型是稳定可靠的;这三种模型的预测性能无显著差异,但在可解释性方面各有特点。因此,这些模型可适应不同的应用要求,用于分析各种因素对乳腺癌患者预后的影响。本文建立的数据挖掘方法也能推广适用于其他疾病的致病因素分析、预后分析和疗效分析等相关医学研究。
其他文献
该文应用实验方法研究了Y型喷咀的结构尺寸和操作参数对其流量特性和雾化特性的影响及其变化规律.在实验中以水代替重油,用压缩空气作为雾化介质进行实验,采用马尔文激光粒子
学位
论文分析了烧结矿(或铁精矿)品位变化对选矿、烧结、炼铁三个工序的工序能耗和生产费用的影响.从节约能源的观点出发,权衡烧结矿品位变化对选矿、烧结、炼铁三个工序的工序能
等离子与材料相互作用严重影响托卡马克装置中等离子体的放电运行。不同方式的壁处理,能够有效减少第一壁中的杂质和降低氢的再循环,从而提高等离子体性能。本文围绕辉光放电清
随着人们对医学图像质量的要求越来越高,这就意味着需要更大的数据容量和更快的数据传输速度。作为医疗诊断领域主流设备之一的磁共振成像(Magnetic ResonanceImaging, MRI)也
学位
学位
学位
学位