论文部分内容阅读
慢性疾病一直是威胁我国国民身体健康的主要因素之一,相较于其他疾病,慢性疾病病程较长,且痊愈可能低,是长期不良生活习性积累形成的损害。在我国慢性病发病率统计中,肾脏类疾病占主要一部分,该类疾病一旦发病其治疗过程长,痊愈难度较大,且医疗费用极高。因此对于慢性病,在出现发病征兆时就进行治疗,将大大降低患病率。目前,在处理预测问题的各类方法中,决策树算法是准确率较高且应用较多的一种方法,本文主要通过对决策树模型的研究提出算法改进,并利用改进后的模型设计实现一个慢性肾脏疾病预测系统,用以帮助医生对患者的病情进行预测,同时对改进后的决策模型进行实证分析,验证其准确率相比于传统的决策模型的确有所提高。决策树中传统的C4.5算法在寻找最佳分割点时需对训练集进行多次遍历和排序,并需要进行大量的计算,当训练集存在多个连续属性、包含较多实例时,该算法运行时间也会增加,导致算法效率低下。针对传统C4.5算法在连续属性离散化过程中存在的缺点,本文提出一种类-属性加权均值法对该算法做出改进,根据目标类取值对连续属性进行划分后,计算每个子集的加权平均值,并将计算结果作为该连续属性的最佳分割点。这种方法计算量较小,且时间复杂度较低,有效的提高了离散化的效率。另一方面,本文也对C4.5算法中的原有的剪枝算法进行了优化,引入误判评价量对决策模型进行剪枝,进一步提高算法分类正确率。最后利用UCI标准数据库中的chronic_kidney_disease数据实证分析,比较优化前后的准确率,并设计实现一个简单的慢性肾脏疾病预测系统,可以导入数据集,利用优化后的算法生成决策模型,对数据库中记录的患者信息进行病情预测。