二类不平衡数据的分类方法研究

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:hudanrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类问题作为机器学习和数据挖掘中一个重要的研究内容,近年来受到众多学者的广泛关注。在现实应用领域中不平衡数据广泛存在,由于不平衡数据集中各类样本数量具有不平衡分布特性,许多以总体分类精确率/准确率方式指导学习过程所设计的分类器并不适用于不平衡数据的分类任务。因此,对于分类模型的设计,如何提高样本数量偏少的少数类的分类性能,同时也保障样本数量多的多数类的分类性能,是不平衡数据分类器设计所面临的一个重大挑战。针对二类不平衡数据的分类问题,本文以提高不平衡数据中少数类的分类性能的同时保持全局分类性能为目标,分别对极限学习机和格构机模型进行改进,提出外类入侵度初始化参数的极限学习机和边界扩展的格构机算法;并结合常用分类性能评价指标,提出了一种基于信任度水平的评价指标用于协同评价分类器的分类性能。具体内容包括以下三个方面:1.提出一种基于外类入侵度初始化参数的极限学习机算法。针对极限学习机随机初始化输入权值不能体现各特征对不同类样本的区分能力的问题,通过设计外类入侵度来进行计算,并依据此区分能力来修正网络中随机初始化的参数。该方法对包含两类样本的数据,分别统计某特征下两类样本的取值分布,通过计算重叠区域中的入侵深度比和入侵个数比来计算该特征的外类入侵度;再依据外类入侵度来提高类别区分能力强的特征在极限学习机中的初始化权重。由于数据的不平衡性,对少数类具有较高分类价值的特征通常与多数类是不同的,本算法既加强了区分少数类能力强的特征在极限学习机中的作用,也加强了区分多数类能力强的特征的作用,从而提高极限学习机在不平衡数据集上的分类性能。在与两种基于极限学习机的改进算法和三种基于数据采样的SVM算法的实验比较中可以发现,本算法在七个不平衡数据上都有着更高的精确率和F1-score(高出2%-29%),且算法稳定。2.提出一种基于边界扩展的格构机模型算法。格构机是一种基于空间覆盖的分类学习方法,其通过构建超元组来对不同类样本分别进行建模。根据不平衡数据的样本分布特性,由格构机构建的正类(样本数量占少数的类)超元组所覆盖的数据空间远小于负类(样本数量占多数的类)超元组,因此导致格构机在正类上的分类效果低于负类。同时由于格构机仅部分覆盖数据空间,进而可能导致其在执行分类任务时召回率较低。针对以上问题,本文提出一种基于边界扩展的格构机,通过对正类超元组在边界方向上进行扩展,以使正类超元组获得最大限度的扩展,进而提高分类器在正类上的分类性能。同时由于扩大了模型覆盖的数据空间,因此在保持精确度的同时也提高了召回率。在与三种基于数据采样的SVM算法的比较中可以发现,边界扩展的格构机在九个不平衡数据上都有着更高的精确率和F1-score(高出2%-19%)。3.提出一种基于信任度水平的分类性能评价指标。在不平衡数据分类领域中,需要使用特定的评价指标来评估分类器的性能,以考虑具有不同分布的不同类别样本的实际分类效果。同时对于疾病相关分类问题,也需考虑分类结果的可靠性:即使分类结果的精确率高,但若其可靠性较低,分类结果则会缺乏信任,很难实际应用。为此,本文提出了一种基于信任度水平的分类性能评价指标,该方法通过将分类器在各测试样本上的似然输出规划到不同范围内,并用来确定分类器分类结果的信任度;最后,根据信任度水平、精确率和F1-score共同分析判断分类器在不平衡数据上的分类性能,可以识别出同时兼具高分类精确率、高信任度的分类器。实验结果表明,本文提出的信任水平指标可为分类结果提供信任评价,以判定分类结果是否可被信任。
其他文献
学位
学位
学位
移动社会网络作为移动通信网络和社会网络的交叉网络,支持移动用户间的数据或信息传输。一方面,幂律分布的普遍存在性使得移动社会网络中用户的重要性存在差异;另一方面,社团结构的普遍存在性使得移动社会网络中用户的相似性得以体现。然而,如何有效利用这一特定场景下的数据信息来实现重要节点的识别和社团检测等问题仍未得到有效解决。因此,本文的研究主要针对移动社会网络中重要节点识别和社团检测问题。与网络中其它节点相
大规模矩阵计算和模指数计算在工程和密码学等领域具有广泛的应用,如数字图像处理,计算机几何学和RSA算法等,但其计算量巨大.外包计算是解决此类问题的一种有效方法,更是云计算实现的重要途径之一.由于网络环境的不安全性,高效安全可验证的外包计算方案受到了广泛关注.本文从数据输入、输出的安全性和验证效率等方面考虑,研究了三类外包方案:基于初等矩阵的可验证外包计算方案,基于分块矩阵的可验证外包计算方案,以及
本文借助亚纯函数值分布理论作为研究的主要工具.首先,研究一类非线性复微分差分方程解的存在性.其次,研究一类复差分方程亚纯解的唯一性.近年来,这些是复分析研究者所感兴趣的问题.论文分为四章,具体安排如下:第一章,简要介绍亚纯函数值分布理论,Nevanlinna理论差分模拟理论以及亚纯函数唯一性理论的基本概念和结果.第二章,研究一类非线性复微分差分方程解的存在性.首先,基于Liu等人和Chen等人得到
学位
学位
学位
学位