论文部分内容阅读
朴素贝叶斯分类器以其简单、在一些数据集上比其它复杂算法不逊色的性能而闻名,但是其内在的属性条件独立性假设在现实当中是很容易被违背的。当这种假设不在成立时,朴素贝叶斯便失去了其竞争力。在现有的放宽朴素贝叶斯条件独立性假设的算法中,大多数都没有考虑到不同的类标下可能出现的不同属性依赖关系,这通常会影响到性能的进一步提升。而在贝叶斯网络扩展方法中,贝叶斯网络结构的学习遇到了很多的问题,如最优网络的搜索是NPC问题,多个网络相当而难以抉择。
训练集中的错误类标噪音一般都会很严重地影响所得分类器的精度。在如何净化这些含有错误类标噪音的数据集这个问题上,已有相当多的工作,但一般都只是对被认为是错误类标的样本实例进行简单的剔除。很显然这种方法是存在着很大的弊端的,因为一条样本中不但有类标信息而且有大量的其它的属性信息,如果简单地抛弃这些样本将会丢失到大量的信息。
针对以上对问题的分析,本文作出了一些相关的工作,实验结果表明了这些工作的有效性。具体来说,本文的主要研究内容和成果如下:
1)针对不同类标可能具有不同属性依赖关系的问题,提出了一种双层贝叶斯分类器模型DLBC,并对两种不同的选取强相关性属性的方法进行了研究:基于性能评估以及基于条件互信息,分别提出了贝叶斯分类器:DLBCPE和DLBCCMI。实验结果表明这两个分类器确实在一些数据集上取得了较其它贝叶斯分类器更高的分类精度。
2)针对模型选择的问题,提出了一种混合型分类器NBHC。在NBHC中,借鉴了神经网络中参数学习的方法,对单属性依赖贝叶斯分类器的权值进行学习以将这些弱分类器集成起来,从而一定程度上避免了棘手的模型选择问题。实验结果表明NBHC的分类精度性能比许多的贝叶斯分类器优秀,跟一些贝叶斯分类器性能相当。
3)针对净化训练集中错误类标实例的问题,提出了一个基于信息熵和贝叶斯分类器的识别和更正错误类标实例的方法EBF。在EBF中,利用了贝叶斯分类器的分类结果:给定实例类标后验概率分布,并以信息熵为工具,实现了错误实例和异常实例的区分以及具有了修正错误类标的功能。在我们的实验中,EBF表现出了比现有的一些方法更优越的性能。