切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
会议论文
一种主题Web爬虫系统的设计与实现
一种主题Web爬虫系统的设计与实现
来源 :全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会 | 被引量 : 0次 | 上传用户:donnastinsbt
【摘 要】
:
本文在深入分析Web页面爬取原理后,通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上,设计并实现了一个基于主题的Web爬虫系统.整个系统在较低
【作 者】
:
王静宇
谭跃生
【机 构】
:
内蒙古科技大学网络中心 包头 014010
【出 处】
:
全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会
【发表日期】
:
2007年期
【关键词】
:
主题
Web爬虫
系统
相似度计算方法
向量空间模型
Web页面
收集效率
经典算法
PageRank
台式机
运行
性能
设计
精度
基础
改进
分析
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在深入分析Web页面爬取原理后,通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上,设计并实现了一个基于主题的Web爬虫系统.整个系统在较低性能的台式机上即可运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。
其他文献
基于文本团的自动文本分类方法
自动文本分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征判断其所属类别的过程.现有的文本分类算法如:KNN、SVM大都基于向量空间模型,没有考虑文档的
会议
对一种分布式数据复制协议的研究
本文介绍了一种分布式数据库数据复制方案——分层数据复制。首先阐述了算法的基本思想,然后建立了一个基于此复制方法的系统模型,并详细描述了该协议的具体执行过程。
会议
分布式数据复制
分布式数据库
执行过程
系统模型
基本思想
复制方法
制方案
协议
算法
描述
食品工程的安全保障与监督管理
期刊
食品工程
安全保障
监督管理
一种基于SOA的电子政务系统研究
针对当前电子政务系统开发建设的主要问题并根据有关标准,本文提出了一种基于SOA的电子政务系统;该系统由基础设施层、企业服务总线层、电子政务公共服务层,电子政务应用层和电
会议
SOA
电子政务系统
开发建设
企业服务总线
公共服务层
主要功能
系统实现
基础设施
参考原则
应用层
问题
描述
门户
含义
标准
SQA
浅谈建筑工程现场管理的实践
期刊
现场管理
重要性
改进
应用
电子政务应用中的Ad hoc网络路由协议的改进
随着电子政务系统的广泛应用,对应急指挥系统的灵活性和高效性的要求也越来越迫切。使用Ad hoc网络能够很好地解决了这一问题。由于Ad hoc网络路由协议的好坏直接影响着网络的
会议
电子政务系统
hoc
网络路由协议
应急指挥系统
分组递交率
直接影响
应急系统
性能
网络时延
实效性
灵活性
高效性
问题
改进
关于村镇污水处理以及利用方式的探讨研究
期刊
村镇
生活环境
污水治理
国际水利水电工程项目管理模式对比分析
期刊
国际
水利水电工程
项目管理模式
节能策略下建筑空间设计思考
期刊
节能
建筑空间
设计
岩土工程地质灾害防治技术及预控分析
期刊
岩土工程
地质灾害
防治技术
预控
其他学术论文