数据流分类技术研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:simple69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际应用领域中产生了大量的数据流,例如电子商务交易记录,网络搜索请求,电信通话记录等,这些数据流中隐含着丰富的有价值的知识亟待挖掘。然而,由于数据流具有的快速性、无限性、连续性、多变性等特征,使得已有的分类方法面临着巨大的挑战。因此,开展数据流的分类方法研究具有重要的研究和应用价值。   传统的分类方法多基于多遍扫描并存储全部数据的方式,难以适应数据流的环境。此外,实际领域数据流中客观存在的概念漂移现象,以及概念漂移所具有的多重性,是数据流分类过程中无法回避的问题。为此,本文开展数据流的分类研究,研究内容涉及两方面:(1)研究适应于数据流环境的实时、低耗、抗噪的数据流分类方法:(2)数据流中有效的概念漂移处理方法。   主要研究内容如下:   (1)基于UFFT和随机决策树,分别提出了数据流集成分类算法UFFT-WB和IRDTC-DS。UFFT通过增量统计的方法构建决策树,因而具有良好的时空性能,然而这种增量统计方法导致历史数据对分类器的影响过大。为此,在构建UFFT集成分类器时,通过删除较差基分类器来减小过期历史数据对当前数据的影响,从而在保证时空性能的基础上提高了算法的分类准确率;由于随机决策树采用随机方法选择分裂属性具有较高的时间效率,但对分类性能带来一定的影响,为此在基于随机决策树的集成分类方法中提出了采用Hoeffding bounds确定连续属性的分割阈值,引入朴素贝叶斯方法判断叶子结点类别标识等改进措施,并实现了集成随机决策树的增量式构建方法。理论分析与实验表明:上述两种集成分类方法是在保证时空性能的同时提高了分类精度,因而能有效处理数据流分类问题。   (2)提出一种具有较强抗噪性的数据流混合集成分类方法WE-HG:针对单一模型集成分类方法可能导致分类误差扩大现象,难以适应含噪数据流的分类,而AP,AE等集成方法虽采用了多模型的集成方法,也存在对当前数据过拟合和时空性能不佳等问题。为此,论文提出基于WE框架的混合集成方法,通过构建1个决策树的集成分类器和1个相对全局的Na(i)ve   Bayes分类器进行集成,利用全局的Na(i)ve Bayes提高整个分类器的抗噪性能。实验表明,与AP,AE和WE等集成方法相比,WE-HG在合理的时空开销范围内,能有效提高集成分类器的抗噪性能,因而是一种有效的数据流分类方法。   (3)提出一种基于实例方法的、自适应的概念漂移处理方法ACCD:基于“与当前分类模型不适应的实例可能代表了新概念的变化方向”这一假设,在决策树的集成分类模型基础上,引入实例加权方法,使得基分类器在构建过程中更关注代表漂移方向的实例,从而使分类器能更快的拟合新概念。此外,针对实际应用中存在的渐进式和突变式概念漂移,为提高模型对不同概念漂移的适应性,引入似然估计法区分数据流中的渐变式和突变式概念漂移,并分别采用不同的基分类器更新策略。实验表明,该方法对突变式漂移能较快的收敛,而对渐变式概念漂移在其收敛过程中具有较高的分类精度,是一种有效的概念漂移处理方法。   (4)提出一种基于概念漂移检测的集成分类算法DWCDS:针对已有方法大多通过监测滑动窗口之间准确率的变化情况来检测概念漂移,而窗口尺寸难以同时适应渐变式和突变式的概念漂移这一问题,提出基于一种双层滑动窗口的检测机制,该方法能根据漂移点动态调整窗口尺寸,一定程度上缓解了固定尺寸窗口难以同时有效检测渐变式和突变式漂移的矛盾。实验结果表明,该方法能有效的检测出上述两种概念漂移,基于该检测机制的数据流分类方法具有较好的分类效果。
其他文献
随着SOA的发展应用,网络上有越来越多的跨平台甚至跨语言的服务,当用户提出服务请求后,如何根据请求快速自动发现分布在Web上的相关服务,这就是研究的动机所在。   现有的服务
随着网络普及与发展,数字产品的共享变得越来越容易和频繁,多媒体作品的版权保护问题已经迫在眉睫,数字水印技术作为数字产品版权保护的主要手段,对其进行研究的必要性也越来
互联网的飞速发展在方便社会的同时,也带来了一系列的网络隐患。针对软件系统稳定性和安全性的问题,本文基于软件网络系统节点之间的调用关系、调用顺序以及内在的调用次数,
0-1背包问题是一种经典的NP难问题,目前还无法找到线性时间内求解该问题的算法,由于求解0-1背包问题在优化组合、资本预算、货物装载、削减库存以及信息密码学等领域具有极为重
目标跟踪是计算机视觉研究中的一个重要课题,它是目标行为理解的基础,是图像系统连续准确工作的重要部分。跟踪算法要求准确性和鲁棒性,在很多应用下还要求实时性,而现实中目
随着经济的快速发展和人们生活水平的不断提高,我国机动车的数量也在急速增多,机动车在给人们生活带来便利的同时,其造成的道路交通问题也日趋严重。因此,对于道路交通的管理急需
本文针对机器学习在视频水印中的应用进行了研究,主要是支持向量机与集成学习在其中的应用,首先通过对视频水印常遭受的攻击进行分类,然后根据每一类给出了应有的防范方法,重
设计模式是软件设计中典型问题的经典解决方式,但是其具体实现方式丰富多样。从源程序中识别出设计模式的实例,并提取出其语法和语义方面的详细信息,将对软件的理解和维护有很大
随着移动计算、普适计算和Web Service等新兴技术的迅速发展,尤其是在Internet成为主流的软件开发环境后,动态软件架构(DynamicSoftware Architecture,DSA)的研究已引起了研究者
聚类分析是智能信息处理、数据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有重要作用。大多数聚类算法都需要预先给出参数,如聚类数目、聚类中心