面向用户行为模式的Web日志挖掘算法的研究与应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:quchaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的逐步成熟和广泛应用,Web日志挖掘成为了数据挖掘的一个重要分支用于更好地分析Web的使用和Web的结构。用户行为模式是Web日志挖掘研究的核心,挖掘结果能够直接应用于改进站点结构和服务器性能,同时也是个性化推荐和自适应站点的实现基础。   本文从理论、算法和应用三个层次研究了面向用户行为模式的Web日志挖掘。   首先,系统、全面的分析和阐述了Web日志挖掘和用户行为模式的相关概念,重点研究了Web日志挖掘的流程。   其次,分析了经典的关联规则和序列模式挖掘算法Apriori和AprioriAll的特点,针对这类算法在Web日志挖掘中的局限性,重点研究了事务压缩改进方法的应用和不足,在此基础上提出了基于查询语句的事务压缩改进算法,显著的提高了模式挖掘算法的效率。   最后,在对Web日志挖掘理论和模式挖掘算法研究的基础上,设计和实现了Web日志挖掘原型系统PkuWLM,并采用北京大学中文主页的Web日志进行了挖掘实验。找出了频繁访问页面组和频繁访问路径,得到了基于统计、基于页面组、基于路径三个方面的报表并进行分析,结果表明通过这样的挖掘和分析,有利于网站管理员了解用户的行为特征和行为模式,用于指导改进网站的结构和服务。
其他文献
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是随着人们的这一
随着XML逐渐成为数据表示和数据交换的标准,XML在越来越多的领域得到了广泛的应用,XML文档的数量也在逐渐增多,如何从大量的XML文档中搜索出用户满意的结果已经成为数据库领
随着卫星系统在对地观测、定位导航、气象预报和空间目标监视等领域的广泛应用,保证卫星系统数据传输的机密性、完整性和可用性成为非常重要的问题。通过加密可以保证卫星系统
作为世界最大的在线百科全书,维基百科(Wikipedia)提供了大量人工编辑的文章,每篇文章都描述了一个著名或者流行的概念(Concept)。本文首先根据Wikipedia文章内容形式的不足
软件可信性是当今软件工程领域面临的一个挑战性难题,而作为保证软件可信的重要方法,可信软件过程也成为当前最为活跃的研究内容之一。软件过程的可信性是一个软件过程能够生
作为桌面计算机的延伸,智能手机等移动设备被越来越多的企业和个人用于关键的计算及存储,使得其安全性受到了广泛的关注。目前,研究人员已经尝试将传统的安全技术应用于移动设备
未来铁路技术日趋关注高速化、智能化、信息化和高运行密度,高速铁路成为推动国家和地区经济发展的强大动力。由于起步较晚,与国外相比,我国列车通信网络(TCN)相关理论的研究相
随着互联网的迅速发展和网络应用范围的不断扩大,对网络的各类攻击与破坏与日俱增,网络安全问题受到越来越多的人们重视。而随着网络攻击手段的多元化、复杂化、智能化,单纯
随着大数据、机器学习的新兴数据密集型应用的兴起,存储系统对于提升系统性能和可靠性的重要性日益凸显。同时,大规模数据中心的发展也使得存储系统在成本和能耗方面面临着巨大
基于视觉的行人检测与计数,是指在人不参与干预或者极少参与干预的条件下,分析由固定摄像头拍摄的静态图像或者图像序列,进而对行人进行识别、定位和人数统计。使用摄像头与