一种主题Web爬虫系统的设计与实现

来源 :全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会 | 被引量 : 0次 | 上传用户:donnastinsbt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在深入分析Web页面爬取原理后,通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上,设计并实现了一个基于主题的Web爬虫系统.整个系统在较低性能的台式机上即可运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。
其他文献
自动文本分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征判断其所属类别的过程.现有的文本分类算法如:KNN、SVM大都基于向量空间模型,没有考虑文档的
会议
本文介绍了一种分布式数据库数据复制方案——分层数据复制。首先阐述了算法的基本思想,然后建立了一个基于此复制方法的系统模型,并详细描述了该协议的具体执行过程。
针对当前电子政务系统开发建设的主要问题并根据有关标准,本文提出了一种基于SOA的电子政务系统;该系统由基础设施层、企业服务总线层、电子政务公共服务层,电子政务应用层和电
随着电子政务系统的广泛应用,对应急指挥系统的灵活性和高效性的要求也越来越迫切。使用Ad hoc网络能够很好地解决了这一问题。由于Ad hoc网络路由协议的好坏直接影响着网络的