基于WEB日志挖掘的频繁模式挖掘算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:yjqwml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和快速普及,Web站点已经成为制造、发布、处理和加工信息的主要平台,但在为人们提供大量信息服务的同时,其自身结构也变得日趋复杂,Web上的数据量也飞速膨胀。如何在这些大量数据中挖掘出潜在、有用的知识信息,来改进Web站点结构以便于用户的访问,给用户提供更好的服务,从而增加网站利润等。针对这些问题,传统的数据挖掘知识和技术将被人们引入到Web领域中,在Web日志数据挖掘过程中,我们可以在这其中得到有用的信息和模式,最终这些知识将被用于Web站点优化、商业智能、为用户提供个性化服务、系统性能改进等。这就是Web日志挖掘,其中面向客户端的日志挖掘得到了许多研究学者们的关注。在本文中,对Web日志挖掘的理论知识与完整过程进行了详细地系统地论述,同时对于有关问题结合理论知识和实际应用提出了改进方法和创新思路。首先,对Web日志挖掘的研究背景,意义和数据源进行详细介绍,并且针对Web服务器端日志数据预处理的过程做了具体的分析和详述。重点详述了关于客户端Web日志的有关知识与问题的解决方法,主要介绍了客户端Web日志的特点和与服务器日志的区别,然后再详细分析了客户端日志数据的获取方法。其次,通过详细分析现有页面兴趣度计算方法的不足,在客户端Web日志数据的基础上,计算用户的真正浏览页面时间,并在综合考虑页面被访问的频度和用户真正的页面访问时间的基础上,提出一种改进的页面兴趣度计算方法。通过分析可知,改进后的页面兴趣度计算方法更合理真实地反映出用户对页面的感兴趣程度。然后分析出网站的有向结构图,把页面兴趣度作为权重,分配给结构图中的相应的结点,生成加权有向图。最后,以生成的加权有向图和用户的访问事务数据库为基础,挖掘出用户的频繁访问模式,通过改进提出了解决此问题的GTWF算法。在算法中,利用权支持度、可扩展模式和权频繁模式等概念,并通过剪枝操作和候选模式产生操作来实现算法对图遍历模式的挖掘,最后通过实验对算法的性能进行了验证。
其他文献
数字水印技术在版权保护、内容认证、拷贝控制、信息安全等众多领域发挥着越来越重要的作用。数字水印技术自20世纪90年代兴起以来,已经涌现出大量的研究成果。尽管如此,在数
随着互联网的普及和社会信息化的发展,使用检索系统的用户变得越来越多,文档的语言种类及内容也越来越多。由于蒙古文的独特性,相对英文、汉文等语种而言,对蒙古文信息检索的
随着对大规模开放计算系统,如电子商务、P2P系统和网格等应用的深入研究,应用系统实现了跨安全管理域的硬件、软件和数据资源的共享。尽管开放计算系统提高了资源利用率和系
论文在调研了几所高校校园一卡通现状的基础上,结合了本人参与的校园一卡通系统建设中所遇到的问题,并与技术人员进行探讨,找到解决问题的办法,并进行有针对性的设计。  
近年来交通问题已成为影响城市发展的严重问题。随着社会经济发展和城市化进程不断扩张,交通拥堵已经成为城市生活中无法回避的问题,成为城市持续发展中必然面临的挑战。城市
嵌入式系统设计中的一个关键步骤是软硬件划分问题,即确定哪些部分由硬件实现及哪些部分由软件实现。软硬件划分与调度问题已经被证明是NP难题,所以大多数关于软硬件划分与调度
无线Mesh网络是从移动自组织网络中分离出来的,具有高容量高速率多点对多点的网络特性。由于其通常部署在开放的物理环境中,因而相对有线网络来说,无线Mesh网络更容易受到来自各
无线传感器网络在人们无法接近的恶劣或特殊环境的监测与数据采集中有着重要作用,如水灾、火灾、山体滑坡等灾害的监测预警。在这类恶劣应用环境中,网络节点面临不可预知的故
随着计算机网络的发展,信息量不断增加,信息的安全问题也表现得日益突出。数字签名作为保障信息安全的一种手段,因其能提供认证性、完整性、不可否认性等功能而越来越受到人们的
ZigBee技术是一种近距离、低复杂度、低功耗、低数据速率、低成本的双向无线通信技术,自动寻找路由,组网灵活,适合节点密集型的网络。远程监控网络是在计算机测控技术的基础