基于网络拓扑的聚焦爬虫研究

来源 :2008海峡IT创新与信息技术学术交流会议 | 被引量 : 0次 | 上传用户：xchjzl

【摘要】

：

聚焦爬虫面向主题，过滤无关链接，只抓取相关的网页信息。通用的聚焦爬虫，无法处理冗余链接，因此本文提出了一种基于网络拓扑的聚焦爬虫。从搜索引擎获取初始网页集，使用向量空间模

【作者】

：

熊菲刘云李勇

【机构】

：

北京交通大学通信与信息系统北京市重点实验室，北京100044

【出处】

：

2008海峡IT创新与信息技术学术交流会议

【发表日期】

：

2008年10期

【关键词】

：

聚焦爬虫链接分析无标度网络向量空间

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚焦爬虫面向主题，过滤无关链接，只抓取相关的网页信息。通用的聚焦爬虫，无法处理冗余链接，因此本文提出了一种基于网络拓扑的聚焦爬虫。从搜索引擎获取初始网页集，使用向量空间模型计算文本相似性。对抽取出的URL先进行链接分析，再根据无标度网络特征，修正UfuL的权值。同时反馈不相关的主题区域，并通过URL与种子集合的距离设置不相关URL的缓冲区长度。仿真结果表明基于网络拓扑的爬虫比通用爬虫具有更高的查准率。

其他文献

基于网络服务状态分析的安全态势定量感知方法

针对网络安全状况量化分析难的现状，运用博弈论开展基于影响模型的网络安全态势定量感知方法研究。该方法将网络服务状态作为基本态势要素，综合考虑网络系统中存在的攻防行为，建

会议

垃圾发电厂焚烧线安装工程特点及对策分析

期刊

垃圾焚烧焚烧线安装焚烧发电措施策略

基于产品安全的质量风险管控标准化研究

期刊

消费品质量风险标准化管理

数字喷泉技术实现不等差错保护的优化设计

随着多媒体广播应用的越来越广泛，对于信息分层的需求也越来越突出。本文首先针对信息分层后不同优先级的层间如何进行不等差错保护(UEP)的问题，提出了一种与喷泉码自身的编译

会议

浅析房屋建筑结构设计管理方法

期刊

房屋建筑结构设计管理

星上固态存储中高速BCH编译码器设计

针对宇宙辐射对星上大容量固态存储器存在单粒子效应，设计并在FPGA上实现了一种高速率、高效率的BCH码编译码器。在编码器方面，提出了基于展开(unfolding)算法的8路并行编码结

会议

“战士作家”高玉宝:一本书影响了几代人

对于高玉宝这个名字,人们再熟悉不过了,一提到他,马上就会和《半夜鸡叫》联系起来。不久前,胡锦涛总书记到大连视察,在与劳模代表见面之际,当大连市领导将高玉宝介绍给他时,

期刊

高玉宝半夜鸡叫吴克华入党申请书总政治部主任党小组长党员同志革命历史穷苦人退而不休

基于信任度规避风险的撮合交易模型研究

提出了基于信任度规避风险的多主体撮合交易模型即TMMTM(Trustworthiness-based Multi-Agent MatchmakingTradeoff Model)，给出了实现该模型的具体算法．TMMTM模型中定量计算交

会议

关于房建施工中防渗漏施工技术的应用方案探讨

期刊

房建施工防渗漏施工应用方案

1-5月北京调整住房供给结构,进一步稳定房价

针对目前房地产市场存在的问题,国务院办公厅5月24日转发的建设部等九部门《关于调整住房供应结构稳定住房价格的意见》提出了“十五条”条具体措施,这充分表明了中央整顿房

期刊

住房供给平方米房地产开发商品住宅商品住宅投资房地产市场土地开发面积住宅需求二手房价格商品房价格

基于网络拓扑的聚焦爬虫研究

其他学术论文