一个基于特征向量的近似网页去重算法

来源 :中国索引学会第三次全国会员代表大会暨学术论坛 | 被引量 : 0次 | 上传用户：chenyingtg

【摘要】

：

在搜索引擎的检索结果页面中，用户经常会得到内容相似的重复页面，它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度，提出一种基于特征向量的大规模中文近似网页

【作者】

：

曹玉娟牛振东彭学平江鹏

【机构】

：

北京理工大学计算机科学技术学院100081北京航天飞行控制中心100094北京理工大学计算机科学技术学院100081

【出处】

：

中国索引学会第三次全国会员代表大会暨学术论坛

【发表日期】

：

2008年11期

【关键词】

：

搜索引擎网页去重算法特征向量近似网页支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在搜索引擎的检索结果页面中，用户经常会得到内容相似的重复页面，它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度，提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate Web Pages)。试验证明，比起其它网页去重算法(I-Match)，DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度，在大规模实验中获得良好测试结果。

其他文献

四川省晏阳初研究会2011年年会暨晏阳初教育思想研讨会在宜宾学院隆重召开

2011年10月15日,＂四川省晏阳初研究会2011年年会暨晏阳初教育思想研讨会＂在宜宾学院召开。会议由四川省晏阳初研究会和宜宾学院共同主办,宜宾学院科技处和四川思想家研究中心协

期刊

中国社会科学院教育思想四川宜宾年会四川大学师范大学

论建国后监察体系研究状况概述

1949 年以来,我国当代监察制度经历了从行政监察制度向国家监察制度转变的时期,作为事关全局的重大政治改革,监察委员会的制度设计正是在长期的监察实践中不断总结经验产生的

期刊

监察制度理论研究演进趋势

班级德育工作中如何提高学生的自信心

德育德育工作是实现中职人才培养的重要保证，是中职教育的首要工作。班主任德育工作是中职德育工作的基础性工作。本文以班主任工作的实际经验，阐述对中职班主任德育工作中如何

期刊

中职班主任德育工作

《童年》

淅淅沥沥的是一夜小雨

期刊

童年小雨

解读微信时代大学生心理健康教育发展

微信是当代大学生使用非常频繁的社交通讯软件,利用微信与他人沟通也是当今大学生主要的社交方式之一。微信的出现改变了当代大学生的生活方式,也对心理特征和心理健康状态产

期刊

微信时代大学生心理健康发展

一稿多投现象分析及规制策略

受经济利益的驱动,我国学术界一稿多投的现象严重。这种学术不端行为,扰乱正常的学术秩序,造成严重的资源浪费,容易引起版权纠纷,必须予以制止。为此,我国应尽快完善现有学术

期刊

一稿多投学术不端利益驱动学术评价体系

我校邵明博士参加在希腊雅典举行的第23届世界哲学大会

2013年8月侄10日，为期一周的第23届世界哲学大会（ The23rd World Congress of Philosophy ）在西方文明和思想的发源地——希腊雅典市正式召开。会议开幕式在灿烂辉煌的雅典卫城

期刊

世界哲学大会雅典希腊博士World西方文明发源地开幕式

解毒洗剂治疗外科化脓性感染540例

解毒洗剂治疗外科化脓性感染５４０例枣庄市峄城区中医院（２７７３００）黄启敏济南军医专科学校（２５００２２）黄贤荣枣庄市峄城区人民医院（２７７３００）张兆华关键词化脓性感染，解毒洗剂，熏洗疗法１一般资料本组５４０例中，门诊病人３０２例，住

期刊

化脓性感染解毒洗剂熏洗疗法中医药疗法

N元格蕴涵代数不等式的解Ⅱ

在格蕴涵代数中研究N元格蕴涵代数不等式,得到其有解的充分必要条件。在b是L交既约元的情况下找出N元格蕴涵代数不等式的所有极大解,从而给出N元格蕴涵代数不等式的具体解集

期刊

格蕴涵代数格蕴涵代数不等式不可约分解极大元lattice implication algebraslattice implication algebr

“牧民定居”视野下新农合实施的调查与思考——基于对四川藏区牧民定居点的剖析

四川藏区在新农合实施的过程中存在着农牧基金补偿率低、参合积极性不高、定点医疗机构少、医疗设备落后、医疗人员水平低、报销程序繁琐、报销比例低等一系列问题。四川藏区

期刊

“牧民定居”新农合基层卫生医疗机构settlement of herdsmen new rural cooperative medical system

一个基于特征向量的近似网页去重算法

其他学术论文