论文部分内容阅读
随着Internet迅速发展,网络经济、注意力经济等新概念的出现,Web挖掘以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学最引人注目的研究课题。Web网站积累的大量数据蕴涵丰富的信息,利用数据挖掘技术来发现规律,提供个性化服务,将提高商业网站的竞争力,有很大实用意义。Web上页面之间的链接关系为Web挖掘提供了极其丰富的潜在信息。Web结构挖掘是以超链接分析为基础,从链接结构中获取有用的知识,利用这些知识,重新组织结构,使内容逻辑结构更加合理。通过发现超链接的层次属性去探索Web站点的设计,提高搜索质量。
本文针对Web结构挖掘开展研究,主要工作如下:1)概述Web挖掘和Web结构挖掘的相关领域发展和技术。
2)分析比较了PageRank和HITS这两种最重要的Web结构挖掘算法。
3)深入研究现有的web结构挖掘系统,并在对其核心算法PageRank和HITS中所存在的问题作了详细分析的基础上提出了自己的改进算法,主要是对每个网页定义这三个参数:PageRank、Authority、Hub,并进行分析,以便我们得到更好的查询结果。
4)最后设计了一个改进Web结构挖掘系统原型,根据实验结果进行分析。