Web点击流数据的聚类技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:gaolch003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW技术的迅猛发展为企业和组织提供了良好的契机,同时也产生了大量的Web点击流数据。对Web服务器上的点击流数据进行有效的分析和挖掘能够发现大量潜在有用的信息,能够帮助管理和决策者有效地分析市场走向、发现潜在的客户群、改良网站结构、增加用户体验等,对于企业的发展有着不可替代的作用。其中,聚类分析是Web挖掘中一个重要的方向,它是将预处理的数据分成几个组,并保证同组内的数据尽可能相似,不同组间的数据尽可能相异。近年来流聚类分析已成为研究热点,如何快速、有效、实时处理大量数据流对研究人员提出了更大的挑战。  在全面分析传统聚类算法及流聚类算法的基础上,针对Web点击流数据的特点提出了应用于静态环境下的Web点击流聚类算法WCSCluster及应用于动态环境下的Web点击流聚类算法WCSCluStream。前者针对静态环境,给出了一种衡量会话间相似度的方法及算法的存储结构,并给出了算法的性质及证明,最后用实例说明了算法的运行过程;后者针对动态环境,在CluStream算法两层框架的基础上提出了一种online-midline-offline三层框架结构,建立了基于泊松过程的滑动窗口模型,修改了HPStream算法中的衰变函数。  为验证两种算法的有效性,详细描述了实验的环境、采用真实数据集与人工数据集,通过与同类算法对运行时间、内存消耗、聚类精度等性能指标的比较,结果表明本文提出的两种算法是行之有效的,优于目前同类算法。
其他文献
军事和经济等关键领域的数据应用需要安全实时数据库(SRTDB)提供安全和实时保障,但是隐蔽信道严重威胁着安全实时数据库的表现。如何有效地限制隐蔽信道威胁,同时保障系统的实
排课是学校教学管理中十分重要且又相当并复杂的管理工作之一。随着高校教育事业的发展,学生人数的不断增加,在教室资源有限的前提下课程编排就显得更加繁重,同时课程的编排
随着计算技术和通信技术的发展,笔记本、PDA、手机等移动设备的便携性和计算能力都得到了很大的提高。将这些设备应用于日常生活以帮助人们提高生活与工作效率成为一种新的需
网格作为一种新兴的基础设施,目的是把地理位置上分散的资源集成起来,通过这种基础设施,用户不需要了解这个基础设施上资源的具体细节就可以使用自己需要的资源,从而实现互联
H.264/AVC(以下简称H.264)是由活动图像专家组和视频编码专家组共同组成的联合视频组JVT制定的新一代国际视频编码标准。预测模式选择和运动估计是H.264标准的关键技术,是视
随着视觉成像设备、计算机网络技术以及移动社交媒体的飞速发展,以图像和视频为主要传播媒介的信息在互联网上呈爆炸式增长。对图像内容的管理和利用的需求也日渐增强,而对图像
Web服务是基于网络的、分布式、自包含、自描述、模块化的应用程序,具有高度的互操作性、跨平台性和松耦合性等特点。随着Web服务研究的不断深入,单个服务越来越难满足用户的
随着关系数据库技术的发展和关键词查询技术的成熟,如何实现关系数据库上的关键词查询这一问题日渐突出,但由于关系数据库采用结构化存储机制,数据被分散存储在关系和元组中,
资源空间模型是一种新的资源管理模型,适应于下一代面向语义、面向知识的智能型网络。分布式资源空间模型是资源空间模型在互联网上的应用,其主要目的是实现海量异构资源的共
随着网络的普及和信息技术的快速发展,近年来,国内许多高校都进行了大规模的校园网络建设,使得校园网内的许多教学软件广泛应用。为了使教学资源更具有开放性,实现教学资源共