网页去重相关论文
自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互......
海量Web信息采集是播存结构源端的一个重要课题。随着Web信息的爆炸性增长,传统的Web信息采集无针对性,页面失效率高,不能满足人们日......
新闻聚类系统诞生于互联网的浪潮中,是个性化新闻推荐引擎的核心部分,聚类的结果直接影响到推荐的效果。一个完整的新闻聚类系统包......
随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网......
研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“......
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,搜......
搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高......
互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运......
伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展......
互联网上的资料浩如烟海,网络信息呈指数级增长。一次检索后的平均返回结果数量依然巨大,传统的搜索引擎动辄返回几万、几十万篇文档......
贵州农经网,作为贵州省委、省政府为促进农业增效,促进农民增收而建立的农村综合经济信息网,始终为广大“三农”提供政策、科技、......
随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理.参考传统文本处理技术,结合网页结构特征和特定领......
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是......

