面向分布不平衡数据的分类算法研究

来源 :南京邮电大学 | 被引量 : 4次 | 上传用户:maye626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际应用中,数据标签的分布往往是不平衡的,并且少数类样本是我们关注的重点。因此,研究不平衡数据的分类方法很有必要。针对不平衡数据的分类问题,主要从数据采样和算法改进两个方面进行研究;当数据分布极端不平衡时,也可以从异常检测的角度进行研究。本文主要有以下三点工作:(1)从数据采样的角度来说,在分类前对数据集进行重采样往往可以提升分类性能。针对 SMOTE(Synthetic minority oversampling technique,SMOTE)算法不考虑新生成的少数类样本位置的问题,本文引入改进的Safe-Level-SMOTE算法,并提出一种基于临时标记的TempC-SSMOTE过采样方法。这样既可以使新生成的少数类样本更靠近少数类样本集中的地方,又能减小过采样规模,改善过采样算法容易生成噪声样本的问题。实验结果表明,从F1值、Recall值和G-mean值角度评估,基于临时标记的TempC-SSMOTE过采样方法优于其他常见采样方法,验证了所提方法的优越性和可行性。(2)从分类算法的角度来说,集成学习方法是处理不平衡数据集分类任务的一种重要方法。本章将 CMAES(Covariance Matrix Adaptation Evolution Strategy,CMAES)算法与集成学习方法相结合,提出一种基于CMAES算法的集成学习方法。该方法用CMAES算法自适应训练基学习器的组成权重,从而提升分类性能。实验结果表明,从Fβ值和Acc值角度评估,基于CMAES算法的集成学习方法能够对基学习器进行有效集成,且性能优于常见集成学习方法。(3)从异常检测的角度来说,常见的异常检测算法,一般是通过异常评价值来判断某条样本是否为异常样本。这种方法往往依赖于阈值的选取,且未利用标签信息。本文提出将异常检测方法与分类模型相结合,用异常检测的思想对数据特征进行处理,挖掘数据的内在信息,再采用贪心方法对新生成的数据特征进行组合,最后结合分类器进行分类。实验结果表明,从F1值、Recall值和G-mean值角度评估,在极端不平衡问题中,基于异常检测思想的特征处理方法可以明显提升分类性能。
其他文献
概念格作为数据分析和知识发现的一种有用的数学工具,为人工智能领域提供强有力的技术和方法。而概念格属性约简则是概念格理论研究和应用的热点问题之一,它不仅具有重要的理
重庆直辖以来,发展迅速,GDP增速常年在全国各个省市中领先。但是重庆地区经济发展并不平衡,主城区和周边区域差距非常大。特别是在幅员辽阔的渝东北地区,各个区县经济差距尤为明显。2016年,渝东北地区GDP实现11.54%的增长率,达到2868.56亿元,占全市的16.34%,按不变价格计算实际增长14.8%。渝东北地区幅员面积3.4万平方公里,占全市面积的41.3%。即41.3%的土地生产了仅16.
<正>陈量对话沃兴华时间:2014年12月9日地点:上海楔子从上个世纪书法的各种流派的产生到如今,书法本质上没有得到新一轮的探讨。关于书法理念的深入没有在上个世纪九十年代的
藏象理论是指导中医辨证论治的核心,肾作为五脏之本,人体生命之根,在人体的正常生命活动中发挥着重要的作用,其藏象理论的研究一直深受历代医家重视。两汉隋唐时期是肾藏象理
介绍了杭州市蒋村商业综合楼基坑支护设计方法,根据本工程的工程特点,采用坑边卸土2.5m后用SMW工法内插型钢结合一道钢支撑支护的思路,并选取2个典型计算断面对基坑结构进行
随着我国市场经济持续、健康发展,社会主义市场经济制度不断完善,越来越多的公司为促进产业结构调整,采用并购重组的方式来提高自身竞争力、维持市场占有率。与之而来的企业
顺风车服务作为专车类共享经济平台新业态的典型代表,弥补了传统出租车服务数量不足、覆盖面低的缺陷,满足了人民群众日益增长的交通出行需求。但网络效应在促进顺风车服务迅
通过订正技术提高风速预报的准确性,能够显著提升风电场风力发电效率,增加电能并网的稳定性,减轻电网压力、降低经济运营成本。为电场优选出合理的风速订正方法,利用Weibull
文化价值观在现代国际商务管理和活动中的影响越来越大,人们把不同的文化划分为不同的种类,地域和生活习惯的差距使不同文化的群体之间相互疏远,要正确意识到这个问题,提高管