爬行策略相关论文
随着互联网信息的日益增长,如何迅速准确地在互联网中找到所需要的信息显得日益重要,传统的通过搜索引擎系统解决了大范围领域内的搜......
今天,在Web信息资源极大丰富的同时,对Web信息搜索工具的研究也提出了更高的要求。由于目前Web的规模和它的动态性,通用搜索引擎仅......
这些年来,由于互联网上的网页数量呈指数增长,爬虫要爬取的信息量过大,它的负荷太过承重导致搜索引擎更新自己的网页数据库速度过慢,不......
学位
伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或......
近几年互联网发展迅速,从网页的整体规模角度分析,网页的数量以前所未有的速度增加;就单个网页的更新速率而言,只有部分网页的更新......
近年来,互联网的整体规模越来越大,作为搜索引擎采集模块的爬虫的工作压力与日俱增,即使最专业的搜索引擎服务提供商,如谷歌、百度......
随着 Internet 技术的迅猛发展,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等日趋明显,针对以上情况,主题搜索引......
聚焦爬虫技术聚焦网络爬虫也就是主题网络爬虫,它增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重......
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以......

