论文部分内容阅读
数据挖掘可以发现采用传统分析方法所无法发现的有用信息,因此具有重要的理论和应用价值。但是传统的数据挖掘算法的研究大多是在一些理想数据集基础上进行的。在现实世界中,数据集普遍具有含有噪声、存在大量的不完整数据和类别不平衡性等不理想的特性。本文以具有这些不理想特性的数据集为研究对象,提出了对含有噪声、类别不平衡的不理想数据集进行处理的数据挖掘方法的改进措施。
本文主要的研究工作及成果体现在如下几点:
1.提出一种基于贝叶斯的去噪方法,不但能辨识出噪声而且能纠正噪声实例的错误类标,从而保证其有效信息不会丢失。
2.针对数据集的不平衡性特性提出了一种决策树的改进分类方法。实验验证该方法在不平衡数据集上的对小类样本的分类效果比传统的C4.5决策树要好。
3.在对数据挖掘在入侵检测上的应用和入侵检测中类别不平衡性问题进行了相关研究的基础上实现了一个基于数据挖掘的入侵检测原型系统,该系统实现了主机型误用检测的入侵检测系统的基本功能。