论文部分内容阅读
随着万维网进入人们的生活,网络已成为人们获取信息和资源的主要来源之一。然而如何在具有海量、半结构化或非结构化、动态性和多态性等特征的信息中方便、迅速、准确地检索到用户真正需要的内容已成为数据组织和Web相关领域专家学者关注的焦点。本文首先介绍Web数据挖掘的定义及其三个分类:Web内容挖掘、Web结构挖掘和Web使用挖掘,研究这三类Web挖掘的方法和进行Web数据挖掘的挖掘流程。然后,介绍本文主要研究对象Web结构挖掘,其中以体现网页结构关系的经典算法PageRank算法为研究重点,PageRank算法单纯描述链接之间的关系,没有分析网页中的内容和用户查询主题的相似度,容易发生主题漂移现象,降低搜索准确率。针对PageRank的缺点本文从以下两方面进行改进:(1)以增强搜索准确度为目标,引入文本相似度排序因子。将快速的汉明距离相似度文本相似度方法与PageRank算法结合,以提高与搜索主题相似页面的PageRank值,更精确地描述链接之间的关系,提高检索准确度,减少主题漂移现象。(2)为增强搜索查全率,本文增加检索词的同义词搜索,为此需改进汉明距离相似度算法,在计算过程中增加同义词的匹配,并且严格区分检索词和检索词的同义词,使其在相似度计算上有不同的结果。结合上述两点,本文在PageRank算法的基础上提出快速相似度PageRank算法作为网页排序标准。最后,利用Lucene和Nutch爬虫技术实现以快速相似度PageRank算法为排序方法的搜索引擎。利用从互联网中抓取的大量网页,对快速相似度PageRank算法验证。实验结果表明,在不影响原PageRank算法的情况下,能够得到快速有效的搜索结果,增强搜索的查全率和查准率。