论文部分内容阅读
贝叶斯网以其丰富的概率表达能力、灵活的推理能力、综合先验知识的特性及其坚实的理论基础引起科研与应用人员的广泛关注,涌现出大量的基于贝叶斯网模型的数据挖掘方法。本文以基于贝叶斯网的数据挖掘方法中存在的若干研究问题为背景,对分类问题、聚类问题以及增量学习中的概念漂移问题等进行了研究,重点研究基于贝叶斯网的解决方法。本论文的主要内容包括:1)在比较和分析了现有四种经典贝叶斯网分类器的基础上,提出了基于实例选择的贝叶斯网分类器集成算法。该方法选择当前测试实例在训练集中的k最近邻作为验证集,根据各分类器在此验证集上的分类准确性,确定单个分类器的权重,并采用加权投票法进行结果组合,以提高分类准确性;2)针对增量学习中的概念漂移问题,提出一种自适应集成学习算法AMCE,该算法中各个分类器的权重可独立地进行调整,以增强自适应能力;采用剪枝策略对冗余的个体分类器进行约简,以提高集成的泛化性能;提出了基于方向选择的分类器集成算法OSEN,以降低参与集成的个体分类器数目,并提高集成的泛化性能;提出采用遗传算法从当前集成分类器中选择部分个体分类器参与集成,以降低集成的泛化误差;3)针对朴素贝叶斯聚类问题,提出基于离散粒子群的朴素贝叶斯混合聚类算法HDPSO。该算法具有较好的全局搜索性能,并混合EM算法对单个粒子进行局部寻优,以提高算法的收敛速度。通过大量实验验证了本文所提算法的有效性和实用价值。本文的工作预期对国内数据挖掘领域该领域的发展起到一定推进作用,本文对概念漂移数据的分类方法研究方面特色鲜明,具有较高的理论意义和实际应用价值。