网络爬虫技术在云平台上的研究与实现

来源 :电子科技大学 | 被引量 : 13次 | 上传用户:woshichuanqi007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,我们获取信息的途径逐渐被网络所替代,但与此同时网络信息量以惊人的速度在增长,面对这样海量的数据,如何快速、精确的收集到所需数据是目前研究的热点。目前很多公司为了提高抓取效率都采用了分布式网络爬虫技术,使用多台机器来并行的从互联网上抓取网络数据。本文设计并实现了一个构建在云平台上的分布式网络爬虫系统,利用云平台的多种特性来提高网络爬虫的性能以及可扩展性。首先,本文针对云平台的一些特性,以及现有的各种分布式网络爬虫系统的局限性,提出了本文的网络爬虫系统的总体设计方案,并将系统按模块划分为控制节点模块、爬虫节点模块和Web管理页面模块。控制节点主要负责URL管理以及虚拟机管理,URL管理对新抓取到的URL进行URL标准化和基于Redis的布隆过滤器去重后,将其存储在Redis的待抓取URL队列中;虚拟机管理是利用云平台按需申请资源的特点来动态调节爬虫节点数量。爬虫节点是真正进行网页的抓取工作,包括网页下载、网页解析和数据存储,针对网页下载设计了一种哈希链表的DNS缓存数据结构,以提高网页下载速度;网页解析采用模板化功能增强其通用性;数据存储则是将收集到的大量数据存储在云平台的网盘上。Web管理页面是可视化的管理整个爬虫系统,通过Web页面可创建爬虫任务、管理爬虫任务和监控爬虫节点。其次,在设计的基础上对本文的网络爬虫系统进行了具体的实现。采用了Java语言来开发本系统的各个功能模块,控制节点与爬虫节点间的信息交互使用了Socket编程技术。网页下载模块使用了HttpClient组件来获取网页数据,并设置了多种网页下载失败处理措施。网页解析模块将正则表达式、XPath和Css Selector进行组合,以链式的方式抽取数据。Web管理页面是基于Spring MVC框架和Jetty容器来实现的,使用了JSP、JavaScript、AJAX等Web编程技术。再次,将本文的网络爬虫系统部署到实验室的云平台上,从功能、性能和可扩展性三个方面对其进行测试,并对测试的结果进行了分析,测试结果表明本系统具有较好的可用性及可扩展性。最后,对本文实现的网络爬虫系统做了一个总结,并分析了本系统中存在的不足,提出了后续的研究方向。
其他文献
<正>中央对国企限薪令出台后,国企高管薪酬问题再次引发热议对于限薪,主流舆论是持赞成意见的,这符合大众心理。凡是针对财富的分配,大多数人都会认为自己分配的少,他人分配
<正>多年来,初中教育与小学、高中相比,其发展显得相对薄弱。近年,随着国家和地方政府对初中教育的重视和加强,我国初中教育虽然有了长足的进步和发展,但问题还是没有真正解
会议
农民工返乡创业热潮的兴起是我国由劳务型经济逐步向创业型经济转变的体现,是适应国际、国内经济形势的必然。农民工返乡创业对吸收农村富余劳动力、推动地方经济发展、增强
探索紫外分光光度法测定蜂王浆中粗蛋白含量的可行性。用凯氏定氮法与紫外分光光度法测定30份来自不同产地的蜂王浆的粗蛋白含量,并分别绘制由牛血清清蛋白与已知粗蛋白含量
<正>文化温暖感性,绩效质感理性,看似格格不入,然而共同的使命揭示了两者的辩证关系。选择合适的情境,实现二者有机融合,则文化以绩效而鲜活具体,绩效以文化而豁达人性。文化
大学生创新创业教育不仅是高校内涵式发展的重要组成部分,也是高校内涵式发展的重要任务。当前,在内涵式发展视域下开展大学生创新创业教育,高校应当通过树立创新创业教育理
应用数据包络分析(DEA)的C2R模型和C2GS2模型评价房地产项目投资的规模效率和技术效率。研究发现,将DEA进行房地产项目投资的效率评价,与层次分析、模糊综合评价、灰色关联度
期刊
抓好企业员工情绪管理,不仅要注重员工情绪需要,建立科学的激励文化,创建个体价值实现机制;也要构建和谐的企业文化氛围,提高员工情绪管理水平,不断提升企业发展的核心竞争力
<正>利用互联网载体,加强创新,积极探索和推进"互联网+企业文化建设"工作,是适应互联网形势提升企业文化建设水平的重要任务。近年来,互联网尤其是移动互联网的蓬勃发展,对人