论文部分内容阅读
近年来,随着Internet的不断发展,互联网已经成为人们重要的信息来源,并为人们提供了丰富的信息资源。同时,互联网的迅速发展,也使得现有搜索引擎技术面临着巨大的挑战,面对如此海量的信息,如何快速准确检索到用户所需要的信息,便显得十分重要。而排序算法,作为一个搜索引擎的核心,自然也就成为了人们关注的重点。 作为世界上最经典的页面排名算法,PageRank算法于1998年由Google的两位创始人Larry Page和Sergey Brin开发,并被成功应用于Google搜索引擎。本文围绕PageRank算法,首先详细介绍了传统PageRank算法的体系结构、形成思路和计算方法,同时,通过对传统PageRank算法进行深入的剖析,指出了传统算法存在主题漂移和偏重旧页面这两大不足,并针对这两个不足介绍了多种现有的经典改进算法。接着,从主题漂移角度出发,本文提出了一种优化改进算法,即改进传统算法在分配PageRank值时没有针对性,单纯将自己权值平均分配给各个页面的思路,而采用根据各个页面重要性不同去分配PageRank值的方法。 最后,本文基于Nutch搜索引擎设计原型系统,对改进算法进行验证,通过在Nutch中分别实现PageRank原型算法和改进算法,将两种算法进行比较,实验结果表明,不论从查准率角度还是相关度角度,改进算法均有一定的优越性,即改进算法确实可以优化页面的排序质量,提升搜索的准确性,表明该算法的有效性。