基于过采样算法的不平衡数据分类研究与应用

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户:ikkonen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集中不同类别的样本之间分布不平衡,且数目相差较大,其广泛存在于网络入侵检测、癌症检测、垃圾邮件分类等各个场景中。用传统的分类器对数据进行处理时由于对少数类样本的信息学习较少,常常把少数类样本错分,造成分类效果不佳、准确率低等现象。而少数类样本中往往包含许多重要的信息,因此,研究如何提高不平衡数据的分类性能具有重要的理论和现实价值。本文从数据层面提出了基于网络节点强度的过采样算法(Node Strength-SMOTE),并将其和集成学习分类算法相结合应用于网络入侵检测中。论文的主要工作如下:(1)提出基于网络节点强度的过采样算法针对不平衡数据中类内不平衡问题,提出了Node Strength-SMOTE过采样算法,模型包含除噪、利用复杂网络节点强度确定样本生成权重、合成新样本三个部分。首先通过KNN降噪,将少数类中存在的噪声样本滤除,并确定新生成样本数;随后将少数类样本作为网络节点,根据K近邻确定节点之间的边权并计算节点强度,将各节点强度占总强度的比值作为样本合成权重,从而确定样本周围生成的新样本数,最后引入轮盘赌的处理机制,确定合成新样本的区域,并使用SMOTE插值法合成新样本。(2)实验仿真在6个UCI不平衡数据集上将Node Strength-SMOTE过采样算法与SMOTE过采样算法、ADASYN过采样算法、Kmeans-SMOTE过采样算法进行对比仿真实验。实验结果表明,相较于其他过采样算法,经本文提出的Node StrengthSMOTE算法进行过采样后的数据集,能获得更好的分类效果。(3)提出基于网络节点强度过采样集成学习网络入侵检测模型在Node Strength-SMOTE过采样算法的基础上和Ada Boost.M2集成学习分类算法相结合,应用在网络入侵检测上,提出基于网络节点强度过采样集成学习(Node Strength-SMOTEBoost)网络入侵检测模型。(4)实验仿真最后在KDD99数据集上和SMOTEBoost及RUSBoost算法进行对比实验,结果表明,无论是针对攻击数据间的分类还是攻击数据和正常数据间的分类(攻击数据间及攻击数据和正常数据间均是不平衡数据)均取得了最好的分类结果,验证了Node Strength-SMOTEBoost模型在处理网络入侵检测方面的有效性。
其他文献
消费税作为我国税制结构体系中的重要税种之一,不仅能够有效地组织财政收入,而且可以在调节消费结构、矫正产品负外部性、调节收入分配以及引导产业结构升级等方面发挥出巨大功效。后者也是消费税特殊的调节功能所在,是消费税和其他税种的重要区别之一。我国消费税自1994年开征以来,围绕着其调节功能进行了多次调整与优化,体现了政府的宏观调控意图。然而,由于现行消费税制度中部分税制要素设计存在缺陷,我国消费税的调节
低功耗广域网作为物联网应用的重要组成部分,由于具有覆盖范围广,低成本,低功耗等特点,不仅在野外监测等方面扮演着重要的角色,在智慧城市中的多个方面也有广泛的应用,如道路照明、智能水表、智能家居、智能停车等。Lo Ra作为低功耗广域网代表性技术之一,使用免费频段传输数据且抗干扰能力强,在同类技术中优势明显且发展较为成熟,在欧美国家已有较多的商业案例。面对高速增长的物联网设备,如何高效处理Lo Ra网络
随着无线网络技术的发展,无线传感器网络逐渐被应用在各行各业中。无线传感器网络由大量的传感器节点组成,能够实时的监测环境,采集数据,并对数据进行处理、传输。它是物联网的核心,是连接着物理世界和网络空间的工具。在无线传感器网络中,认证是保障用户和节点安全的重要措施之一。由于传感器节点在存储、计算、通信方面的资源受到限制,认证协议需要在安全与效率之间保持平衡。本文对用户接入认证和分层无线传感器网络的节点
在阵列信号处理实际系统中,待处理信号可能为圆信号,也可能为非圆信号,抑或圆信号与非圆信号共存。现有工作表明,通过数据增广操作以利用信号非圆性可有效提升波束形成和信号
近年来,随着电子商务的发展,业务量呈爆炸式增长,使得各个企业的营销重心已从线下发展到线上,线下和线上融合的商业模式逐渐流行起来,这就产生了与我们生活息息相关的O2O模式。在O2O营销过程中,优惠券是一种行之有效的营销工具。识别那些更有可能使用优惠券的顾客,从而进行精准投放,进一步帮助O2O企业提高营销效率,同时,通过识别有消费倾向的顾客,增加销量。本论文主要的研究工作可以分为以下三个方面:1.数据
互联网的普及和网络支撑技术的进步,使电子商务搭上了高速发展的列车,越来越多的零售商将“新零售策略”列为企业的战略发展方向,线上渠道销售额占总销售量的百分比也在日益增加。消费者不再跟以往一样,只能通过传统的零售店购物,互联网购物逐渐成新的趋势,演变成人们生活中不可或缺的部分;此外,互联网使用场景的扩展让消费者足不出户就能够获取商品信息;同时,信息不对称性的降低使得消费者们变得更具有“策略性”。策略性
本文研究了水声通信系统中复杂的水声信道环境对传输信号的影响,主要包括传输带宽较窄使传输效率较低,多径效应和多普勒效应对传输信号造成的频率和时间双选择性衰落的影响等
本文主要通过针对阳虚大鼠电针镇痛的最佳时机在卯时;阳虚的则在酉子时的介绍,阐述了呈相互对应性,在低级中枢(腰脊髓)昼夜节律变化不明显的研究.
在当今这个以知识和科技主导的创新时代,复杂产品作为国家发展的基础型产品在促进国家经济发展、提升国际地位中起到了非常重要的作用,国家也正逐步改变产业布局,着力推动我国复杂产品产业的转型升级。面对日趋复杂的市场环境、技术环境以及政策环境,一个企业难以实现需要高资金水平、技术水平的复杂产品研发,复杂产品协同创新网络作为一种新的合作组织应运而生。而目前创新网络的失败率一直很高,其中基于协同创新项目而产生的
如今城市轨道交通飞速发展,地铁是大多数人不可或缺的交通工具。为保证列车质量可靠、运行安全,列车检查由主要人工定期巡检完成。但人工巡检安全保障模式存在以下问题:可能出现漏检或误检、检查效率低,给行车安全带来隐患。其中地铁列车转向架轴端螺栓属于关键部件,而其尺寸小,数量多,给检测带来了一定困难,因此本课题设计了一种在保证精度下的地铁列车轴端螺栓的快速检测算法。首先针对地铁列车侧面采集设备传回的图像由于