多类类别不平衡学习研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:dianshenshizhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类别不平衡问题是指各个类别的样本数差异明显,某些类别样本数远远小于其他类别,小类别是关注的重点。但标准分类算法假设所有样本的重要性相同,以最大化正确率为目标,往往忽略小类样本。以往的大多数研究针对两类类别不平衡问题并取得了显著成果,但现实世界中多类类别不平衡问题普遍存在,与两类类别不平衡问题相比,数据分布更加多样化,概念复杂度更高,因此面临更大的挑战。目前,多类类别不平衡学习正在成为领域的研究热点。  本文针对多类类别不平衡问题进行研究,主要取得了以下成果:  (1)分析了多类类别不平衡问题的困难,讨论了多类类别不平衡学习的性能评价准则,研究发现Macro-averaged F-measure值相比于多类的G-mean和MAUC更关注大类样本,因此在多类问题中需谨慎使用;对多类类别不平衡学习算法进行了综述;  (2)为了避免随机下采样算法忽略潜在有用的大类样本信息的缺点,提出了基于集成学习的EasyEnsemble.M算法。利用对大类的多次独立随机采样获取更多的大类信息,并结合集成学习提高了分类器的性能;  (3)在EasyEnsemble.M算法的基础上,为了更加充分利用大类样本信息提出了ChunkCombine算法。该算法采用无放回的随机采样获得多个不重复的大类样本子集,与EasyEnsemble.M算法相比涵盖了更多的大类信息,而且不同数据块的组合提高了集成学习中的弱分类器的多样性,进一步提高了泛化性能。  本文共五章。第一章介绍本文工作的研究背景,包括类别不平衡问题介绍,两类类别不平衡学习简介。第二章针对多类类别不平衡问题,分析了困难本质,介绍并讨论了性能评价准则,总结了以往的学习算法。第三章提出了多类类别不平衡学习算法EasyEnsemble.M和ChunkCombine。第四章进行了实验比较。第五章是论文工作的总结与展望。
其他文献
TCP/IP协议栈随着APARnet和互联网的迅速发展而广泛流行,在传统的互联网应用,例如电子邮件、信息获取和再现、产品市场、广告、娱乐、电子出版、在线培训、在线服务和客户支
SCSI (Small Computer System Interface小型计算机系统接口)是用于应用程序和存储设备之间传输数据的协议。SCS工有一个主要的缺陷是SCSI总线长度有限。随着SAN(Storage Are
协同电子干扰是将多种干扰机通过通信链路进行信息交互,在指挥中心的统一调度下采用合适的干扰方式对敌方雷达进行协作干扰。随着战场环境和作战任务的日益复杂,利用多无人机
面向服务的体系架构解决了如何描述服务和组织服务的问题。但是单个、简单的Web服务往往无法满足实际应用中的需求,在实际应用中,人们常常需要将多个简单的Web服务组合起来以完
IPv6 是“因特网协议第六版”的缩写,是由IETF 设计的下一代因特网协议,目的是取代当前的因特网协议第四版(IPv4)。IPv4 在过去的应用中具有辉煌的业绩,但随着应用的普及和深
本文主要是研究如何在基于J2EE平台下开发移动银行平台系统。本系统是在SMS短信银行平台的基础上,对原有需求进行重新分析与提炼,并通过调查相关的同类产品增加一些新的需求,
IPv4是全球通用因特网协议的当前版本,现行的IPv4自1981年RFC791标准发布以来并没有多大的改变。事实证明,IPv4具有相当强盛的生命力,易于实现且互操作性良好,经受住了从早期小规
随着WLAN(WirelessLAN)技术的发展和普及,人们渴望通过WLAN拨打经济实惠的IP电话,因此,研究实现WLANIP电话终端成为迫切的需求。目前应用比较普遍的IP电话协议是H.323,但是H.323
在中国,电信业开放的局面已经形成,竞争日益加剧。电信运营商的经营模式已经从传统的“面向设备、面向网络”的经营模式逐步转变到“面向客户”的经营模式,如何充分地利用网
数字签名及其相关课题的研究是现代密码学和信息安全最活跃的领域之一,是一个十分重要且有极大应用价值的研究课题。本论文主要对一些特殊的数字签名进行了研究。全文共分五