基于网络拓扑的聚焦爬虫研究

来源 :2008海峡IT创新与信息技术学术交流会议 | 被引量 : 0次 | 上传用户:xchjzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚焦爬虫面向主题,过滤无关链接,只抓取相关的网页信息。通用的聚焦爬虫,无法处理冗余链接,因此本文提出了一种基于网络拓扑的聚焦爬虫。从搜索引擎获取初始网页集,使用向量空间模型计算文本相似性。对抽取出的URL先进行链接分析,再根据无标度网络特征,修正UfuL的权值。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。仿真结果表明基于网络拓扑的爬虫比通用爬虫具有更高的查准率。
其他文献
针对网络安全状况量化分析难的现状,运用博弈论开展基于影响模型的网络安全态势定量感知方法研究。该方法将网络服务状态作为基本态势要素,综合考虑网络系统中存在的攻防行为,建
会议
随着多媒体广播应用的越来越广泛,对于信息分层的需求也越来越突出。本文首先针对信息分层后不同优先级的层间如何进行不等差错保护(UEP)的问题,提出了一种与喷泉码自身的编译
会议
针对宇宙辐射对星上大容量固态存储器存在单粒子效应,设计并在FPGA上实现了一种高速率、高效率的BCH码编译码器。在编码器方面,提出了基于展开(unfolding)算法的8路并行编码结
会议
对于高玉宝这个名字,人们再熟悉不过了,一提到他,马上就会和《半夜鸡叫》联系起来。不久前,胡锦涛总书记到大连视察,在与劳模代表见面之际,当大连市领导将高玉宝介绍给他时,
提出了基于信任度规避风险的多主体撮合交易模型即TMMTM(Trustworthiness-based Multi-Agent MatchmakingTradeoff Model),给出了实现该模型的具体算法.TMMTM模型中定量计算交
会议
针对目前房地产市场存在的问题,国务院办公厅5月24日转发的建设部等九部门《关于调整住房供应结构稳定住房价格的意见》提出了“十五条”条具体措施,这充分表明了中央整顿房