论文部分内容阅读
随着Internet的高速发展和快速普及,Web上可以获取的信息也在急剧增加。由于无法浏览全部的Web文档,所以人们往往求助于搜索引擎来查找所需的信息。Web超链分析技术可以提高搜索引擎的查准率,因此成为网络应用和信息检索方向的研究热点。介绍了搜索引擎的分类、发展历程、原理和评价指标,概括了超链分析技术在搜索引擎中的重要作用。阐述了目前最著名的超链分析算法PageRank和HITS,分析了它们存在的问题,发现主题漂移是影响性能的主要因素。与HITS相比,PageRank在稳定性和适用性上更胜一筹,更适合于大规模的搜索引擎。因此PageRank算法是本文的重点研究对象。对PageRank算法进行了深入的探讨,在分析了国内外主要的改进算法的基础上,对PageRank缺点和改进方法进行总结归纳,从不同的角度提出了两种改进方法。从超链的创建动机和实际作用进行分析,发现超链的实际作用差别比较大。同时受到网页分类的启发,引入了超链分类概念。根据不同的类别分配不同加权,提出了基于超链分类的HC-PageRank改进算法。为了验证算法,在Nutch上开发了基于HC-PageRank的链接分析工具,实验证明,HC-PageRank的查准率高于传统的PageRank算法。在对PageRank计算过程研究的基础上,发现PageRank值不具备语义性。根据HITS在线聚类原理,在查询时根据查询词的语义进行PageRank调整,提出了基于超链内容PageRank调整算法。为了验证算法,在Nutch上开发了基于超链内容PageRank调整算法的聚类插件。实验证明,基于超链内容的PageRank调整算法可以提高搜索引擎的查准率。