论文部分内容阅读
聚焦爬虫面向主题,过滤无关链接,只抓取相关的网页信息。通用的聚焦爬虫,无法处理冗余链接,因此本文提出了一种基于网络拓扑的聚焦爬虫。从搜索引擎获取初始网页集,使用向量空间模型计算文本相似性。对抽取出的URL先进行链接分析,再根据无标度网络特征,修正UfuL的权值。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。仿真结果表明基于网络拓扑的爬虫比通用爬虫具有更高的查准率。