贝叶斯分类器几个相关问题的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:fenghuah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朴素贝叶斯分类器以其简单、在一些数据集上比其它复杂算法不逊色的性能而闻名,但是其内在的属性条件独立性假设在现实当中是很容易被违背的。当这种假设不在成立时,朴素贝叶斯便失去了其竞争力。在现有的放宽朴素贝叶斯条件独立性假设的算法中,大多数都没有考虑到不同的类标下可能出现的不同属性依赖关系,这通常会影响到性能的进一步提升。而在贝叶斯网络扩展方法中,贝叶斯网络结构的学习遇到了很多的问题,如最优网络的搜索是NPC问题,多个网络相当而难以抉择。   训练集中的错误类标噪音一般都会很严重地影响所得分类器的精度。在如何净化这些含有错误类标噪音的数据集这个问题上,已有相当多的工作,但一般都只是对被认为是错误类标的样本实例进行简单的剔除。很显然这种方法是存在着很大的弊端的,因为一条样本中不但有类标信息而且有大量的其它的属性信息,如果简单地抛弃这些样本将会丢失到大量的信息。   针对以上对问题的分析,本文作出了一些相关的工作,实验结果表明了这些工作的有效性。具体来说,本文的主要研究内容和成果如下:   1)针对不同类标可能具有不同属性依赖关系的问题,提出了一种双层贝叶斯分类器模型DLBC,并对两种不同的选取强相关性属性的方法进行了研究:基于性能评估以及基于条件互信息,分别提出了贝叶斯分类器:DLBCPE和DLBCCMI。实验结果表明这两个分类器确实在一些数据集上取得了较其它贝叶斯分类器更高的分类精度。   2)针对模型选择的问题,提出了一种混合型分类器NBHC。在NBHC中,借鉴了神经网络中参数学习的方法,对单属性依赖贝叶斯分类器的权值进行学习以将这些弱分类器集成起来,从而一定程度上避免了棘手的模型选择问题。实验结果表明NBHC的分类精度性能比许多的贝叶斯分类器优秀,跟一些贝叶斯分类器性能相当。   3)针对净化训练集中错误类标实例的问题,提出了一个基于信息熵和贝叶斯分类器的识别和更正错误类标实例的方法EBF。在EBF中,利用了贝叶斯分类器的分类结果:给定实例类标后验概率分布,并以信息熵为工具,实现了错误实例和异常实例的区分以及具有了修正错误类标的功能。在我们的实验中,EBF表现出了比现有的一些方法更优越的性能。
其他文献
新课标中明确指出:“高中化学课程以进一步提高学生的科学素养为宗旨,着眼于学生未来的发展,体现时代性、基础性和选择性,兼顾学生志趣和潜能的差异和发展的需要.”同时强调,
一、主题与背景rn“良好的开端是成功的一半”,这句话应用于课堂教学,同样意义重大.一堂好课,开头的铺垫很重要,尤其在强调探究学习、自主学习的新的教育理念倡导下,如何激发
6月1日人民日报发表新华社稿《沈阳10万“倒骑驴”》,是一篇颇有特色的报道。它通过对沈阳市“倒骑驴”运输市场的生存和兴旺,从一个侧面反映了我国社会主义初级阶段的生活
典故具有丰富的内涵和简洁的形式,但在翻译的过程中,译者很难在译出典故内容的同时再现其形式.以当代翻译理论家安德烈·勒菲弗尔的重写理论为框架,从意识形态和诗学的角度比
随着计算机技术和光电技术的发展,出现了一种新的检测与测量技术——基于图像处理的测量技术,该技术是一种利用摄像机作为图像传感器,综合运用图像处理等技术进行非接触测量
在软件测试过程中,优秀的测试工具通常能显著地提高测试的效率。在开源社区的推动下,越来越多的开源测试工具不断涌现。软件测试是一个复杂的过程,而现有的开源测试工具大多专注
新课程改革目的在于提升学生的基本化学素养,化学的教学目标更加丰富.新课程从学生的个性发展角度出发,提出了“知识与技能、过程与方法、情感态度与价值观”三维教学目标,相
随着集成电路工艺的迅速发展,系统芯片设计和验证的复杂度在日益增长,系统芯片推向市场的压力也在不断增大。为了提高设计的生产效率,人们对系统芯片(SoC:Systemonachip)设计流
我省传统的冬季绿肥——紫云英,历來以连作晚稻稻田套播,随着迟熟高产晚稻品种的推广和插秧密度的增加,紫云英苗期在稻底生长期延长,光照过弱,对幼苗生长极为不利。水稻收割