一种主题Web爬虫系统的设计与实现

来源 :全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会 | 被引量 : 0次 | 上传用户：donnastinsbt

【摘要】

：

本文在深入分析Web页面爬取原理后，通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上，设计并实现了一个基于主题的Web爬虫系统.整个系统在较低

【作者】

：

王静宇谭跃生

【机构】

：

内蒙古科技大学网络中心包头 014010

【出处】

：

全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会

【发表日期】

：

2007年期

【关键词】

：

主题 Web爬虫系统相似度计算方法向量空间模型 Web页面收集效率经典算法 PageRank 台式机运行性能设计精度基础改进分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文在深入分析Web页面爬取原理后，通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上，设计并实现了一个基于主题的Web爬虫系统.整个系统在较低性能的台式机上即可运行，并可获得较高的属于指定主题的页面的收集精度和收集效率。

其他文献

基于文本团的自动文本分类方法

自动文本分类是指在给定的分类体系下，对未知类别的文档进行自动处理，并根据文档特征判断其所属类别的过程.现有的文本分类算法如：KNN、SVM大都基于向量空间模型，没有考虑文档的

会议

对一种分布式数据复制协议的研究

本文介绍了一种分布式数据库数据复制方案——分层数据复制。首先阐述了算法的基本思想，然后建立了一个基于此复制方法的系统模型，并详细描述了该协议的具体执行过程。

会议

分布式数据复制分布式数据库执行过程系统模型基本思想复制方法制方案协议算法描述

食品工程的安全保障与监督管理

期刊

食品工程安全保障监督管理

一种基于SOA的电子政务系统研究

针对当前电子政务系统开发建设的主要问题并根据有关标准，本文提出了一种基于SOA的电子政务系统;该系统由基础设施层、企业服务总线层、电子政务公共服务层，电子政务应用层和电

会议

SOA电子政务系统开发建设企业服务总线公共服务层主要功能系统实现基础设施参考原则应用层问题描述门户含义标准SQA

浅谈建筑工程现场管理的实践

期刊

现场管理重要性改进应用

电子政务应用中的Ad hoc网络路由协议的改进

随着电子政务系统的广泛应用，对应急指挥系统的灵活性和高效性的要求也越来越迫切。使用Ad hoc网络能够很好地解决了这一问题。由于Ad hoc网络路由协议的好坏直接影响着网络的

会议

电子政务系统hoc网络路由协议应急指挥系统分组递交率直接影响应急系统性能网络时延实效性灵活性高效性问题改进

关于村镇污水处理以及利用方式的探讨研究

期刊

村镇生活环境污水治理

国际水利水电工程项目管理模式对比分析

期刊

国际水利水电工程项目管理模式

节能策略下建筑空间设计思考

期刊

节能建筑空间设计

岩土工程地质灾害防治技术及预控分析

期刊

岩土工程地质灾害防治技术预控

一种主题Web爬虫系统的设计与实现

其他学术论文