论文部分内容阅读
随着Internet的迅速发展和快速普及,Web站点已经成为制造、发布、处理和加工信息的主要平台,但在为人们提供大量信息服务的同时,其自身结构也变得日趋复杂,Web上的数据量也飞速膨胀。如何在这些大量数据中挖掘出潜在、有用的知识信息,来改进Web站点结构以便于用户的访问,给用户提供更好的服务,从而增加网站利润等。针对这些问题,传统的数据挖掘知识和技术将被人们引入到Web领域中,在Web日志数据挖掘过程中,我们可以在这其中得到有用的信息和模式,最终这些知识将被用于Web站点优化、商业智能、为用户提供个性化服务、系统性能改进等。这就是Web日志挖掘,其中面向客户端的日志挖掘得到了许多研究学者们的关注。在本文中,对Web日志挖掘的理论知识与完整过程进行了详细地系统地论述,同时对于有关问题结合理论知识和实际应用提出了改进方法和创新思路。首先,对Web日志挖掘的研究背景,意义和数据源进行详细介绍,并且针对Web服务器端日志数据预处理的过程做了具体的分析和详述。重点详述了关于客户端Web日志的有关知识与问题的解决方法,主要介绍了客户端Web日志的特点和与服务器日志的区别,然后再详细分析了客户端日志数据的获取方法。其次,通过详细分析现有页面兴趣度计算方法的不足,在客户端Web日志数据的基础上,计算用户的真正浏览页面时间,并在综合考虑页面被访问的频度和用户真正的页面访问时间的基础上,提出一种改进的页面兴趣度计算方法。通过分析可知,改进后的页面兴趣度计算方法更合理真实地反映出用户对页面的感兴趣程度。然后分析出网站的有向结构图,把页面兴趣度作为权重,分配给结构图中的相应的结点,生成加权有向图。最后,以生成的加权有向图和用户的访问事务数据库为基础,挖掘出用户的频繁访问模式,通过改进提出了解决此问题的GTWF算法。在算法中,利用权支持度、可扩展模式和权频繁模式等概念,并通过剪枝操作和候选模式产生操作来实现算法对图遍历模式的挖掘,最后通过实验对算法的性能进行了验证。