基于网格和密度的改进数据流聚类算法在网络访问日志流上应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yejing00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活中,人们经常遇到海量的、快速产生的数据,称为数据流。为了对数据流进行有效的处理,人们提出适合数据流聚类的新模型。面向数据流的聚类问题已成为当前国内外聚类研究的一个重要方向。 本文以网络访问日志流为研究对象,结合网络访问日志流的特点,提出基于网格和密度的改进数据流聚类算法。改进算法分为在线和离线聚类两部分。算法通过引入网格方法提高在线聚类的速度,并使用基于密度聚类思想实现任意形状的数据聚类。 针对网络访问日志流特征存在冗余的特点,提出一种无监督环境下的带启发式的二阶段聚类特征选择算法获取有效特征。该算法通过对每个原始特征按其聚类重要性排序作为启发式策略以进行特征选择。算法分为三步:第一步是将所有原始特征都按照聚类重要性进行排序;第二步是通过二阶段聚类算法(Two-Steps)选择合适的特征子集;第三步对已选的特征子集计算任意两个特征的相关系数,去除相关系数大的特征,选出合理的特征。接着本文对该特征选择算法的结果进行实验分析,表明带启发式的二阶段聚类特征选择算法获取的特征是有效的。 数据流聚类算法的一个难点在于实时处理速度,因此本文的改进数据流聚类算法引入网格划分方法实现数据快速处理。虽然网格划分能在一定程度加快数据处理,但是网格划分的单元数随着数据维数的增加成指数增长,使得在高维数据聚类时增加了查找网格的时间消耗。为此,本文提出二次网格划分方法。它是在初次网格划分的基础上再划分出较大的网格块,然后通过哈希表实现数据点的直接定位,减少查找网格的时间消耗。数据流聚类算法的另外一个困难之处是算法使用的内存空间有限。由于本文的改进数据流聚类算法引入网格划分,随着数据流的不断到达,存储在内存中的网格信息将不断增多。为避免内存不足,本文使用网格合并、抛弃方法节省内存空间的消耗,并使用切割方法提高合并后网格的精度。改进数据流聚类算法的在线部分就是结合二次划分以及合并、切割等方法实现对网络访问日志流快速有效聚类。算法的离线部分是对在线处理的中间结果做进一步的聚类分析。 最后通过实验比较改进数据流算法与CluStream算法在聚类质量、时间和空间上的差异。结果表明改进数据流聚类算法对网络访问日志流聚类能取得很好效果。
其他文献
创建学习型组织是提高企业“软实力”的重要途径,是全面提升企业核心竞争力的有效手段。首钢矿业公司(以下简称“首矿”)坚持从实际出发,边学习、边实践、边探索,形成了具有
在高等学校中,辅导员是重要构成人员,主要进行的工作任务就是德育工作,并且进行大学生思想政治教育工作.作为大学中重要的思想教育骨干力量,高校辅导员对于大学生的健康成长
布鲁纳说过:“学习的最好刺激是对所学材料的兴趣.”课常教学是促进学生发展的主要途径,要以课堂教学为突破口,以学生为主体,面向全体学生,调动每个学生的积极性,激发学习兴
研究如下不可压缩磁流体(MHD)方程的Cauchy问题:   本文将主要研究MHD方程弱解的正则性问题.首先,我们证明了,若速度场u满足‖u‖Lsw(0,T;Lrw(R3))充分小,其中1/s+3/2r=1/2,3≤
学位
索赔准备金,作为保险业经营中重要的一个环节以及现今保险业风险资本监管中非常重要的一部分,其计算方法在近年来受到了业界越来越广泛的关注。而在学术界中也提出了各种计算索
随着我国电力市场的改革,“厂网分开,竞争上网”制度的实施,在新的电力市场环境下,许多新的电网经济调度课题被提出。其中,电网如何建立有效的经济调度模型对地方电厂进行经济调度
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本论文研究了两个问题,共分为三章内容。   第一章我们首先对本论文中经常使用的符号和概念加以定义,然后分别对所研究问题的背景、进展以及我们得到的结果作一个综述。  
学位
对保险道德风险问题的研究是当前保险界关注的热点问题。通常情况下,对保险道德风险的研究一般局限在保险人、投保人及保险中介人之间展开。更多情况下通过研究保险人与投保人
计算电磁场是研究如何设计数值方法去求电磁场问题的近似解并对其进行理论分析的交叉学科。近年来,有限元方法、矩量法、区域分解法、边界元法等许多数值方法已经在计算电磁场
学位