基于贝叶斯分类器的数据集重叠问题研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:lhyu11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题一直是机器学习领域的重要问题之一.对于分类模型,研究者除了致力于分类器的构造和优化外,也专注于对影响分类效果的各种因素的探究.而数据集的重叠问题和不平衡问题是影响分类效果的两个重要因素. 数据集不平衡问题一度被视为影响分类效果的主因,学术界于2000年和2003年分别举行会议进行了讨论,学术成果相当丰富.但随着研究的深入,陆续有学者提出数据集的不平衡并非是分类效果不佳的关键,而不同类别的样本在样本空间上的重叠才是导致分类精度不高的主要原因.更有学者进一步指出:不论数据集是否平衡,数据集的重叠都会对分类精度产生很大影响.目前数据集重叠问题已逐渐成为新的热点,受到越来越多研究者的关注. 现有的处理数据集重叠的方法主要是选择性删除数据和特征提取.选择性删除数据的目的是找出数据集重叠的区域,并将该区域的样本删除,常用方法有两个:DataClean和Edit.而利用特征提取算法处理重叠问题目前还只停留在理论阶段. 本文提出了两个处理数据集重叠问题的方法——基于离群点检测的处理方法和基于半监督学习法的处理方法.为了探讨各种方法对数据集重叠问题的处理效果,本文选用基于核密度估计的贝叶斯分类器,并且使用F1指标作为分类器的评价标准.本文将这两种方法应用于UCI数据库中的十个数据集,并且与传统处理方法作了综合比较:通过适用性、功效性、稳定性和时效性四个方面的分析,结果表明:相比于传统方法,基于离群点检测的处理方法适用性较广且大多数情况下分类效果有较好的改进;基于半监督学习法的处理方法则针对一些特殊的情况具有显著的效果.
其他文献
通过使用包括情景教学法、游戏教学法以及多媒体教学法在内的形式多样的教学方式可以有效缓解小学生自身注意力和自我控制能力的不足的问题.通过对情景教学法进行分析,进而从
交流是彼此间把自己有的提供给对方。在小学数学教学中,就是指在一定的时空里,生生之间或师生之间围绕一个主题,用自己的语言表述自己的观点,并在倾听他人观点的时候产生新的
都市“知识白领”是一个充满朝气与活力的特殊群体,他们中蕴藏着党建工作的巨大潜力,发掘了这种潜力,基层党建就会走出一片新天地。这一特殊群体中,有四海为家的“游子”党员
在音乐新课标中有明确的提出:音乐感受和音乐鉴赏是音乐教学的重要教学内容,也是提高小学音乐教学效率最直接的途径,可以说,音乐欣赏教学是我国小学音乐教学中最重要的组成部
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
类比二次Hom-李代数的研究方法,本文首先给出了特征0代数闭域上构作二次 Hom-李超代数的方法及其例子.其次,对超交换环上Hom-李超代数的结构进行初步的研究,证明了单R-Hom-李超
随着信息网络的飞速发展,许多与之相关的理论性问题越来越引起人们的重视,其中之一即为网络可靠性。通信网络的可靠性分析与高可靠性能网络的设计问题是可靠性研究的核心。图作
设G是有限群,S是G的不包含单位元1的子集.如下定义G关于S的有向Cayley图Cay(G,S),其中V(Cay(G,S))=G,E(Cay(G,S))={(g,sg)|g∈G,s∈S}.如果S-1=S,则可以将两条有向边(g,h)和(h,g)看作一
课堂教学是一个师生双边活动的过程.在课堂教学中,教师应营造一个宽松和谐、兴趣盎然的学习氛围,这样才能调动学生的情感与兴趣,使学生真正成为课堂学习的主人,从而使学生积
数学老师都知道在数学课上讲解数学题目是很关键的环节,在以往的数学课上都是老师讲、学生听,那种古老的授课模式到今天已经不能适应新的教学模式的要求了。新的模式要求数学