基于Docker集群的分布式爬虫研究与设计

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:acecar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从政府提出实施国家大数据战略以来,互联网大数据成为重要的战略资源的地位越来越明显。而开采互联网大数据的有效工具网络爬虫也显得更加重要,但传统的爬虫均建立在VM集群之上,存在着宿主机资源利用不充分且爬虫系统难以扩展等问题。随着新兴虚拟化技术Docker的发展,为解决原有运行在VM环境上的网络爬虫存在的问题提供了契机。基于Docker集群分布式爬虫主要从分布式爬虫技术和Docker集群技术两个方面进行研究。目前开源的爬虫框架对分布式的支持程度不同,例如Scrapy爬虫框架不支持分布式,并且现有框架比较适合运行在VM集群环境之上,存在着VM集群带来的系统资源利用不充分的缺点。Docker集群是一种全新的虚拟化集群技术,比VM集群更加合理高效的利用宿主机的各种资源。通过研究开源网络爬虫架构,本文设计并实现完全支持分布式的网络爬虫系统,并使之运行在Docker集群之上。本文还进一步改进爬虫的URL去重算法,采用具有更好去重效果的K分型Bloom filter算法,并使其满足分布式情况下的应用需求。本文的主要工作有以下几个方面:(1)深入研究网络爬虫的工作原理,掌握其整体架构的设计模式。详细研究Docker集群的编排管理工具,掌握其工作原理以及管理和调度机制。研究内容去重算法,并应用于分布式爬虫系统。(2)通过研究开源的网络爬虫框架,理解其不支持分布式的原因,设计并实现出适合Docker集群的分布式爬虫系统模块。并将系统模块有效的组合起来,形成完整高效的分布式爬虫系统。采用Docker集群编排管理工具Kubernetes来对分布式爬虫系统的各个功能模块进行部署和管理,使之成功运行在Docker集群之上。(3)将实现的分布式爬虫分别搭建在VM集群和Docker集群之上进行不同层次的实验对比,来证明分布式爬虫系统运行在Docker集群之上有更好的抓取效率,更加充分的利用宿主机资源,并且容易实现系统水平扩展。(4)理解经典的Bloom filter算法的原理,并对其误差概率进行研究。通过改进K分型Bloom filter算法使其满足分布式情况下的应用需求,并进一步提高去重效果,降低误差概率。最后通过实验证明改进后的K分型Bloom filter有更好的去重效果。
其他文献
结合实例,从准备工作、招投标、施工、竣工验收几个阶段对合同管理在造价控制中的应用进行了分析。
现有文献对企业知识获取方式的研究大多数侧重于研究企业从何处获取知识,而不能解释企业获取知识的具体过程。阐述了产业互动、自建物流网络、物流云服务三条制造企业物流服
西方城市社区的发展与研究已经有一百多年的历史,从不同角度和研究方法可以分为多种流派和理论。本文主要从不同的角度介绍西方社区的理论内容,以及对我国社区建高的启示。
利用近年的国际旅游统计资料,以土耳其国内的奥贾兰事件和美国的“9.11”事件为案例,分析了恐怖主义活动对土耳其入境旅游的影响。
会计信息无论是在信息传递方面,还是在决策方面都起着非常重要的作用。以我国的企业会计信息质量现状入手,充分分析了影响会计信息质量的相关因素,并提出在适应市场经济化的
本文根据我国目前基层央行纪检监察工作现状,提出了建立完善的纪检监察网络,加强纪检监察队伍建设,建立科学的纪检监察工作制度等相关对策。
介绍了硫磺应用于沥青路面的发展过程,提出了采用硫磺改性沥青乳化的方式,避免了加热施工应用引起污染环境问题,改变了目前硫磺改性沥青的应用方式。通过反应温度的变化,研究
作为一个新生事物,网络直播发展势头迅猛,但也存在诸多问题,亟待加强监管。本文对网络直播的运营现状进行了解析,并给出相关监管建议。
目的:本课题对126例特禀质儿童(过敏体质)同时进行检测过敏原特异性IgE抗体和食物不耐受特异性IgG抗体,发现食物不耐受IgG抗体阳性率及两种抗体同时阳性率均较高,提示我们在
本文从上海外滩踩踏事件出发,运用内容分析方法,对传统媒体在针对突发性事件报道中的社交媒体信源使用情况进行分析,研究结果表明:新媒体环境下,社交媒体信息传播具有出色的