网页消重相关论文
随着网络上信息的飞速增长,搜索引擎已经成为人们查找信息的重要途径。搜索引擎对互联网上的网页进行检索时,由于存在大量的重复网页......
当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都......
语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理......
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经成为人类有史以来信息资源数量最多、信息资源种类最全......

