论文部分内容阅读
针对网络大量重复页面,本文研究基于Bloom Filter的网络爬虫URL地址消重算法。首先,本文对Bloom Filter算法进行了分析研究;其次,本文应用Bloom Filter算法设计并实现了网络爬虫的URL消重;最后,论文采用URL消重率和爬虫爬取某类网站所用时间等性能指标,对基于遍历法和基于MD5算法的URL消重性能与基于Bloom Filter的消重性能做了对比。实验证明,基于Bloom Filter的网络爬虫URL地址消重算法效率较高。