基于重采样与集成学习的不平衡数据分类方法研究

来源 :华北电力大学(保定)   | 被引量 : 0次 | 上传用户:shyandi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据收集与存储技术的发展使得互联网、金融以及工程界等诸多领域积累了海量的数据,机器学习可以高效的从数据中发现特征与规律,与传统数据分析技术相结合有助于从巨量、复杂的数据中发现有用的知识。类别不平衡问题作为机器学习领域的一个难点,具有重大的研究意义与价值。本文针对类别不平衡问题,从数据与算法两个层面出发,考虑原始生成式对抗网络(GAN)存在训练困难、模式崩溃等问题,以Wasserstein生成式对抗网络(WGAN)作为一种基本数据合成方法,与集成学习等算法相结合以提升不平衡学习的性能。
  针对噪声对于不平衡学习的影响,设计一个基于K近邻的噪声滤波器(KF),对不平衡数据存在的噪声进行过滤。采用WGAN进行不平衡数据中少数类的过采样,将基于Boosting框架的不平衡学习算法RUSBoost用作对抗样本选择器(ASS)以过滤WGAN所生成的低质量对抗样本。设计了结合噪声过滤、过采样与对抗样本选择的重采样方法KF-WGAN-ASS的框架。在UCI数据库的6组不平衡数据集上对KF-WGAN-ASS算法进行了实验验证,结果表明,KF-WGAN-ASS算法的性能优于其他人工采样方法。此外,通过在数据集上添加噪声的实验,验证了噪声滤波器参数的选择对算法性能的影响。
  在重采样与Bagging算法的基础上提出了一种不平衡数据分类方法——WGAN-DSR-Bagging。使用WGAN进行少数类的过采样以提升所合成少数类样本的可靠性,选择在差异化采样率(DSR)下进行训练子集的构造以提升Bagging框架中基分类器的多样性。设计了WGAN、差异化采样与Bagging相结合的不平衡数据分类框架。本方法在一个客户用电异常行为分析数据集上进行了实验验证,并选择WGAN过采样、asBagging以及SMOTE-DSR-Bagging算法进行对照,结果表明,WGAN-DSR-Bagging在AUC、F-measure与G-mean测度上的表现均优于上述三种算法。通过算法在不同不平衡比率训练集上的实验,验证了算法性能与稳定性优于asBagging方法。
其他文献
目的:中国的食管癌发病率和死亡率逐年上升,急需有效的检测和预后指标。FK506结合蛋白3(FK506binding protein3,FKBP3)作为FKBP家族成员之一,是一种通过结合DNA和转录因子,发挥调节细胞周期和增殖能力等作用的重要核蛋白,已经被证明在肿瘤中存在异常表达现象。通用转录因子3(basic transcript factor3,BTF3)在细胞中发挥着调节基因转录和调控细胞凋
学位
刚地弓形虫(Toxoplasma gondii)是顶复门的一种专性胞内寄生原虫,它独特的双宿主生活周期使其能够广泛感染哺乳动物及部分冷血动物,因此弓形虫在人群中有着极高的感染率。在孕妇和免疫低下的人群中,弓形虫感染往往会造成较为严重的后果。巨噬细胞迁移抑制因子(Macrophage migration inhibitory factor,MIF)是一种多功能多效应的细胞因子,具有广谱的生物活性,并
随着经济快速发展,人们生活水平得到有效提高,饮食习惯和生活方式发生巨大变化,导致越来越多的人患有代谢性疾病,如:肥胖症、2型糖尿病、非酒精性脂肪肝病(nonalcoholic fatty liver disease,NAFLD)等,这些疾病严重影响人们的生活质量,找到有效治疗靶点减轻患者病痛早已成为科学家亟待解决的问题。环指蛋白186(RING Finger Protein186,RNF186)作
背景及目的:结节性硬化症(Tuberous Sclerosis Complex,TSC)是一种常染色体显性遗传病。TSC作为一种罕见病,不仅以全身多器官多发性肿瘤为特征,而且患者常伴有癫痫发作和智力发育迟缓,其发病原因多由TSC1和TSC2基因突变引起。TSC蛋白复合物(TSC1/TSC2复合物)失活通过小的GTPase Rheb调节雷帕霉素复合物1(也称为mTORC1)的机制靶点或哺乳动物靶点的
目的:  脑胶质瘤在全身肿瘤中的恶性度位居第三,仅次于胰腺癌和肺癌。具有高发病率、高复发率、高死亡率和低治愈率的特点。丰富的新生血管是此肿瘤最为突出的间质特点,这些新生血管是瘤细胞快速增殖、高度侵袭和复发的重要结构基础。病因目前尚未明确,但不排除电磁辐射的影响。临床上的治疗手段主要以手术切除为主,放、化疗为辅,但是由于肿瘤和正常脑组织之间没有明显的分界,再加上高度侵袭周围组织的病理特点,造成手术无
学位
过氧化还原酶6(Peroxiredoxin6,Prdx6)是一种具有非硒谷胱甘肽过氧化物酶(no-Se gluta-thione peroxidase,NSGPx)和酸性非钙依赖的磷脂酶A2活性(acid calcium-independent phospholipidase A2,aiPLA2)的双功能蛋白。前期本课题组人员发现,与假手术组相比,大鼠大脑中动脉阻塞模型(middle cerebr
该文通过实验对O/CO气氛下钙基脱硫剂脱硫的机理进行了研究.首先,运用卧式炉和烟气分析仪对三种不同含硫量的煤种进行了静态实验研究,对在O/CO气氛下影响SO生成的因素进行了分析,具体考察了气氛、温度以及Ca/S比诸因子的影响;其次,在自行设计制造的小型滴管炉上对高硫煤在不同的气氛、温度以及Ca/S比进行了动态实验研究,对收集的气体进行了红外产物分析,并讨论了CO浓度以及温度等因素对SO释放的影响;
学位
该文第二章研究了燃煤过程中硫化物的转化规律,对重要含硫的中间产物HS、COS、CS、元素硫、SO的转化进行了分析.然后采用化学热力平衡计算工具FACT2.1,分别以高硫、中硫、低硫三种煤样,研究了典型燃烧工况下煤中硫化物的生成情况,初步揭示了煤样中的硫分和燃烧条件对硫化物生成规律的影响.此外探讨了二氧化硫与氮氧化物在燃烧过程中的相互作用,并利用化学动力学程序CHEMKIN进行了NHNO-ONSO栓
学位
近些年来,可再生干法脱硫以湿法脱硫难以比拟的优势在烟气脱硫界各受关注.CuO/γ-AlO烟气脱硫脱硝工艺就是这类技术中的一种.首先,该文综合介绍了目前国际上常见的烟气脱硫脱硝工艺,并将它们与CuO/γ-AlO烟气脱硫脱硝进行了经济性比较,详细地阐述了CuO/γ-AlO烟气脱硫脱硝的优越性.还较全面地介绍了CuO/γ-AlO烟气脱硫的研究与开发现状.其次,该文通过宏观硫化实验找到了脱硫效率与烟气在脱
学位
电热油炉是以电热升温,采用导热油作为传热介质,在闭路循环系统中以低压、高温状态下运行,直接释放热量,从而达到提供热源目的的有机载体加热设备.该文探索神经网络在电热油炉测控系统中的应用.主要讨论对电热油炉进行智能控制的可行性及原理,建立了单神经元PSD控制算法,并通过最小二乘法辨识出了系统模型,介绍了系统的硬件和软件设计.最后进行了系统仿真调试,得到了满意的效果.
学位