数据挖掘中噪声和不平衡性问题的研究和应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhenlic0300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘可以发现采用传统分析方法所无法发现的有用信息,因此具有重要的理论和应用价值。但是传统的数据挖掘算法的研究大多是在一些理想数据集基础上进行的。在现实世界中,数据集普遍具有含有噪声、存在大量的不完整数据和类别不平衡性等不理想的特性。本文以具有这些不理想特性的数据集为研究对象,提出了对含有噪声、类别不平衡的不理想数据集进行处理的数据挖掘方法的改进措施。   本文主要的研究工作及成果体现在如下几点:   1.提出一种基于贝叶斯的去噪方法,不但能辨识出噪声而且能纠正噪声实例的错误类标,从而保证其有效信息不会丢失。   2.针对数据集的不平衡性特性提出了一种决策树的改进分类方法。实验验证该方法在不平衡数据集上的对小类样本的分类效果比传统的C4.5决策树要好。   3.在对数据挖掘在入侵检测上的应用和入侵检测中类别不平衡性问题进行了相关研究的基础上实现了一个基于数据挖掘的入侵检测原型系统,该系统实现了主机型误用检测的入侵检测系统的基本功能。  
其他文献
移动自组织网是指由一组带有无线通信收发装置的移动节点组成的一个多跳、自组织、无中心网络。随着移动自组织网中节点的快速移动,网络的拓扑结构将会不断变化,因而传统的网
学位
心脏骤停是心脏病最危重的表现。拯救心脏骤停的最重要的方法就是心肺复苏术。自从20世纪50年代和60年代初期现代心肺复苏一整套技术被美国巴尔的摩的一些临床医师及研究者提
固态盘以其体积小、可靠性高、速度快、功耗小等优点受到人们的关注,各领域的应用越来越普遍,但针对固态盘的安全保护技术研究却很少,还没有成熟的应用解决方案,急需开展固态
学位
无线传感器网络因其多学科的交叉性和广泛的应用前景得到了越来越多的关注。安全机制的研究是传感器网络广泛应用的基础,但传感器网络的资源受限、无线通信的易毁性以及物理安
汉语隐喻处理是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的中心地位,从计算语言学和自然语言处理的角度来考虑,隐喻问题若不能得到
三维人脸网格模型器官分割是颅面重构研究的子课题,颅面重构研究是依据颅骨的特征,复原出人脸的面貌。研究三维人脸器官分割,可以为颅面重构的结果提供器官模型,使复原结果更加真
由于具有良好的可扩展性、可用性、高性价比,机群结构已经成为高性能计算机的主流结构。使用机群系统进行复杂科学计算的需求日益增长。由于科学计算应用规模越来越大,复杂度越
随着互联网和信息技术的发展,网络上信息资源越来越丰富,信息的格式也多种多样,包括了文本、声音、图像、视频等媒介。信息的安全传输和展示成为一个需要解决的问题,信息的识别是
光照是影响成像的关键因素之一。当光照条件变化时,同一物体的不同成像之间的差异极大,有时甚至大于不同物体的成像之间的差异。在很多目标识别应用场景中,光照又常常不受人为控
数字化技术和网络的发展推动了海量数据的产生、共享与应用,使得科学与工程研究日益成为数据密集型的工作。包括大气科学在内的部分学科领域的数据密集型分析过程是由若干相关
学位