面向概念漂移和类不平衡数据流的在线分类算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:jzhiei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人类在生产生活中产生了越来越多的数据,为了挖掘这些数据中蕴含的知识,许多研究工作开始对不同类型的数据进行知识发现与挖掘。本文面向数据流这一形式,针对数据流具有高速性、实时性、高维性等特点,以及存在的概念漂移,类别不平衡等问题,研究具有概念漂移和类别不平衡的数据流的分类问题。本文的主要工作如下:1.针对数据流分类问题的背景和相关研究,本文从数据流的挖掘技术开始,对概念漂移数据流的分类方法,类别不平衡数据流的分类方法,概念漂移和类别不平衡同时存在的数据流的分类方法,以及数据流的主动学习方法进行了详细的综述研究,并总结现有方法的不足和提出改进方法。之后对数据流挖掘中针对类别不平衡问题的一系列评估指标进行归纳总结。2.针对类别标签缺失的、具有概念漂移和类别不平衡的数据流的分类问题,提出一种基于成对集成框架的在线主动学习方法。成对集成框架包含静态分类器和动态分类器,能够处理多种类型的概念漂移;混合标签主动请求策略能够针对性地选择数据流中最具有代表性的和小类别的实例进行训练。实验部分使用真实数据集和人工数据集,验证了算法的良好性能。3.针对概念漂移和类不平衡数据流的分类问题,研究提出一种基于重采样方法的集成学习方法。基于重采样的集成学习算法采用一种基于流和基于块方式相结合的实例学习方法,结合两种学习方式的优点;算法提出一种增强机制,对集成分类器中的基分类器预测权重进行奖惩,从而提高集成分类器对于小类别的分类能力;集成分类器包含静态分类器和多个周期性替换的动态分类器,确保了对于不同种类概念漂移的处理能力;提出了一种全新的重采样方法,在基分类器的初始化阶段补充小类别的实例进行训练,提高基分类器对于小类别实例的分类能力。实验部分通过比较其他最新的有监督学习算法,在人工数据集和真实数据集上证明了算法的优越性。并以客户信用评估为例,验证了算法在实际应用中的能力。
其他文献
以模式分解和光束质量测量为代表的光束特性表征是对光纤激光器进行深入研究的重要工具。近年来兴起的深度学习技术有望为光束特性表征提供一套简单有效、快速准确的全新技术方案。因此,论文对基于深度学习的少模光纤输出光束特性表征展开了研究。首先,论文首次实现了基于深度学习的少模光纤模式分解,通过大量样本数据对卷积神经网络(Convolutional Neural Network,CNN)进行训练,使CNN习得
当前,大数据的应用正逐步改变着各领域信息汇集、处理和利用的方式,蕴藏在海量数据中的巨大价值被不断发掘。在军事情报领域,大数据为情报分析提供了海量数据支持以及多样化的数据处理手段,有效提升了情报产品质量和情报保障效能。与此同时,大数据的迅猛发展也给军事情报分析带来了新的挑战。如何应对挑战,以更好地利用大数据为军事情报分析服务亟需较为系统的理论研究作铺垫。本文在探索和丰富相关理论研究成果上进行了有益尝
本文提出了一种基于深度学习神经网络的同步定位与建图系统,工作主要分为基于深度学习的视觉/惯性组合里程计网络的设计以及单目视觉深度估计算法的研究。在基于深度学习的视觉/惯性组合里程计网络中,本文设计了基于卷积神经网络的视觉特征提取器以及基于长短时记忆网络的惯导信息特征提取器,并设计窗口优化网络对短时间内的相对位姿进行优化。针对视觉和惯导信息融合特征中可能存在的噪声,本文设计了两种注意力网络,分别为加
贝叶斯优化是一类广泛发展并且有很强理论支撑的零阶优化方法,在当前的自动化机器学习领域应用广泛。将贝叶斯优化结合到自动化机器学习模型中能够获得比其他方法更高的采样效率。高斯过程是贝叶斯优化最常用的概率模型,高斯过程的核函数会深刻地影响到高斯过程的性能。然而,当前常用的核函数不能有效发掘数据的内在模式,而且不具有外推能力。因此,深入理解核函数并改进核函数的设计是当前亟需研究的一个方向,这对当前大数据时
海洋中尺度涡对能量物质运输、水声传播具有重大影响,同时还会影响其附近区域的生态系统、气候等。快速准确识别中尺度涡位置并对其进行跟踪与轨迹预测在物理海洋学、海洋生物学、海洋声学等领域有着重要的研究价值。然而,由于涡旋本身没有准确的定义,导致缺少兼顾准确性和快捷性的提取方法。海洋中尺度涡最准确的提取方法依靠对海洋遥感图像“专家目视判读”,这种方法劳动强度大,而且无法满足快速、自动检测的需求;而应用较为
云的形成和演变是大气中物理过程的宏观体现,地面云观测在天气现象的观测、记录和研究中占有重要地位。近年来地面云自动观测系统不断发展,但云的自动分类一直是一个待解决的难点。人们一直试图寻找怎样区别于视觉表征来描述不同种类的云,现有方法大多数采用手工制作视觉描述符,其结果不十分令人满意。受卷积神经网络(Convolutional Neural Network,CNN)在大规模图像分类领域中取得巨大成功的
快速、准确的航姿测量对于小型UAV的飞行控制至关重要,随着小型UAV在军事、民用领域的广泛应用,航姿测量技术的发展越来越受到重视,对基于MEMS传感器的航姿测量系统进行研究、设计已经成为小型UAV领域的研究热点。本文针对小型UAV航姿测量实际需求,在研究MEMS传感器误差补偿、航姿解算等关键技术的基础上,设计开发了高性能航姿测量系统,为未来小型UAV的进一步应用提供了有力支撑。本文首先对各MEMS
培育军人战时心理弹性对于促进军人心理健康、提升军队战斗力具有重要意义。当前在该领域系统深入的研究依然缺乏,深入参战军人群体研究战时心理弹性具有重要的理论价值和良好的应用前景。本研究从积极心理学视角出发,采用质性研究方法,以12名对越自卫反击战参战英雄为研究对象,通过深度访谈法收集资料,以扎根理论分析资料,利用Nvivo11软件编码访谈文本共计21万余字,形成访谈节点156个,参考点799个。研究结
近年来,人们为了提升飞行器的综合性能,开展了许多关于多学科设计优化(MDO)方面的研究。但是,MDO方法需要大量调用学科仿真分析模型,这将导致花费巨额的计算成本,不利于工程实用化(比如,单次高精度结构/流体等分析需要花费几十小时)。为了提高MDO可计算性,一种有效解决途径是发展近似建模方法,但是其中仍存在一些挑战。因此,本文以近似建模方法为研究对象,针对其中存在的有限样本、非线性、高维等挑战开展了
物理设计是集成电路芯片设计的关键阶段,在摩尔定律的驱动下,电路的集成度不断上升,已经达到数十亿晶体管级,工艺节点也随之进入纳米级,引发了许多要考虑的问题,这些使得物理设计的复杂度急剧上升。同时,先进工艺节点中的物理设计需要很强的专业知识和丰富的设计经验,而大多数设计师不可避免的要进行昂贵的设计迭代以达到设计目标,这使得采用增加人力和资源成本加速物理设计过程的传统方法已无法满足物理设计的发展趋势。因