基于文本结构的近似镜像网页去重

来源 :山西大学 | 被引量 : 0次 | 上传用户:lhyhh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1998年,世界上第一个搜索引擎系统GOOGLE在其诞生之初,就以超强的实用性赢得了广大网民的使用热情,其准确、快速的网络导航性,往往能使人们在第一时间找到自己所要的信息。但是,近年来,随着互联网上信息的急剧膨胀,现有搜索引擎的一些不完善性也逐渐暴露出来,开始越来越让人无法忍受,其中最严重的就是返回结果中经常包含有大量的重复网页,人们将其称为近似镜像网页。这些网页的内容有的是一字不拉的完全重复,有的只是其中一部分重复。近似镜像网页存在的主要原因是网络上的非法复制。对搜索引擎系统本身来说,这些近似镜像网页的存在极大得浪费了宝贵的存储资源,降低了索引效率。对用户来说,这些网页是毫无意义的,但是却不得不花费时间去浏览它们,而它们的存在本身也是对知识产权的一种侵犯。因此,准确、快速的去除近似镜像网页,不仅对搜索引擎的深远发展来说是一项必不可少的措施,而且对知识产权也是一个有力保护。近年来,不断的有学者提出一些近似镜像网页去重的方法,这些方法对内容完全重复的近似镜像网页的去重效果都相当不错,但是对内容部分重复的近似镜像网页的去重效果却差强人意。在本文中,我们依据网页重复的特征,充分利用网页文本自身的特点,提出了一种动态的近似镜像网页去重方法。该方法首先分析各种网页的正文结构表现形式,对现有的网页正文结构表现形式进行分类;然后对每篇网页根据其结构表现形式将其正文表示成正文结构树的形式;最后通过从正文结构树中动态的提取特征来进行相似度计算,从而实现近似镜像网页的检测与去重。本文在大量实验和真实数据分析的基础上,得到了如下研究成果和结论:1.通过人工分析各种网页的正文结构表现形式,将其分为四大类,其中又包含各种小类。对每一类表现形式,都提出了相应的段落权值分配方法。2.将网页的正文表示成正文结构树的形式,并提出了由网页正文向正文结构树转化的算法。3.提出了动态提取文本特征进行相似度计算的文本复制监测方法,并提出了层次指纹的相似度计算算法。4.用大量网页对本文提出的方法的性能进行了评测,并且用相同的数据集和现有的一些近似镜像网页去重方法进行了比较。我们人工搜集了12,000篇网页作为测试集进行实验,其结果表明,不论是内容完全重复的近似镜像网页还是内容部分重复的近似镜像网页,使用该方法都取得了令人满意的效果。
其他文献
发展矿业、矿产资源勘查、保护与合理利用矿产资源是各级矿政管理部门的重要工作。建立高效实用,集电子化、一体化与一体的现代化的矿政管理系统是当代矿管工作的必不可少的手
数据挖掘和形式概念分析是当前热门的研究领域,如何利用形式概念分析理论进行有效的数据挖掘已经成为计算机科学领域的一个新课题.本文主要研究了形式概念分析理论在规则提取
  目前VoIP电话拨打方式有三种传统模式:麦克风和耳机、专用的VoIP话机和ATA设备。这些拨打方式中要么与人们拨打电话习惯不符,要么因为价格昂贵、配置复杂等原因很难走进一
流媒体技术是网络研究的热点之一。但由于当前在保证服务质量方面存在很大不足,流媒体至今仍然不是网络应用的主流。虽然各种流媒体服务系统在Internet上不断涌现,但是这些系统
近年来,P2P流媒体系统已经成为了学术界和工业界研究的热点。与传统的C/S模型相比较,P2P流媒体系统架构可以充分利用终端的资源和能力去提升自身的可扩展性。当前,一些针对P2
随着计算机和网络技术的发展,企业数据库系统已向集成应用和和分布式处理模式发展,有效地管理企业计算中的大量授权数据已成为首要问题。 现有的访问控制技术主要有基于访问
二十世纪80年代,国外已经开始利用计算机技术对板材的结构进行模拟仿真,但鉴于当时计算技术发展的局限性,无法实现板材研究的计算机三维可视化。随着人造板技术与计算机仿真
软件过程技术在现代软件开发中越来越居于重要地位。人们普遍认为软件开发组织的高质量和高生产率依赖于三个因素:过程、技术和人。软件过程、从事软件开发的人员和所采用的技
我国是一个水资源严重短缺的国家,加之由于水资源的时空分布极不均衡,干旱缺水问题相当严重,未来的水资源形势更加严峻。我国节水农业的发展仍然是刚刚起步,提高旱作节水项目管理
学位
计算机安全越来越受到人们重视。  在电子商务、电子政务、电子教务等等在线业务日益发展的今天,越来越多的人们依赖于网络从事自己的事务。网上事务面临的最大问题在于如何