论文部分内容阅读
1998年,世界上第一个搜索引擎系统GOOGLE在其诞生之初,就以超强的实用性赢得了广大网民的使用热情,其准确、快速的网络导航性,往往能使人们在第一时间找到自己所要的信息。但是,近年来,随着互联网上信息的急剧膨胀,现有搜索引擎的一些不完善性也逐渐暴露出来,开始越来越让人无法忍受,其中最严重的就是返回结果中经常包含有大量的重复网页,人们将其称为近似镜像网页。这些网页的内容有的是一字不拉的完全重复,有的只是其中一部分重复。近似镜像网页存在的主要原因是网络上的非法复制。对搜索引擎系统本身来说,这些近似镜像网页的存在极大得浪费了宝贵的存储资源,降低了索引效率。对用户来说,这些网页是毫无意义的,但是却不得不花费时间去浏览它们,而它们的存在本身也是对知识产权的一种侵犯。因此,准确、快速的去除近似镜像网页,不仅对搜索引擎的深远发展来说是一项必不可少的措施,而且对知识产权也是一个有力保护。近年来,不断的有学者提出一些近似镜像网页去重的方法,这些方法对内容完全重复的近似镜像网页的去重效果都相当不错,但是对内容部分重复的近似镜像网页的去重效果却差强人意。在本文中,我们依据网页重复的特征,充分利用网页文本自身的特点,提出了一种动态的近似镜像网页去重方法。该方法首先分析各种网页的正文结构表现形式,对现有的网页正文结构表现形式进行分类;然后对每篇网页根据其结构表现形式将其正文表示成正文结构树的形式;最后通过从正文结构树中动态的提取特征来进行相似度计算,从而实现近似镜像网页的检测与去重。本文在大量实验和真实数据分析的基础上,得到了如下研究成果和结论:1.通过人工分析各种网页的正文结构表现形式,将其分为四大类,其中又包含各种小类。对每一类表现形式,都提出了相应的段落权值分配方法。2.将网页的正文表示成正文结构树的形式,并提出了由网页正文向正文结构树转化的算法。3.提出了动态提取文本特征进行相似度计算的文本复制监测方法,并提出了层次指纹的相似度计算算法。4.用大量网页对本文提出的方法的性能进行了评测,并且用相同的数据集和现有的一些近似镜像网页去重方法进行了比较。我们人工搜集了12,000篇网页作为测试集进行实验,其结果表明,不论是内容完全重复的近似镜像网页还是内容部分重复的近似镜像网页,使用该方法都取得了令人满意的效果。