基于分布式计算的网络爬虫技术的研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:lin0929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网站技术日趋成熟,互联网上的站点也越来越多,信息量非常巨大,而人们的工作和生活中对互联网上的信息需求也越来越大,搜索引擎技术的重要性愈加明显。就目前来看,搜索引擎技术已经深入人心,贴近人们的生活,对人们生活影响越来越大,而网络爬虫是搜索引擎中至关重要的一个模块,它影响着搜索引擎的方方面面。   基于单机的网络爬虫的抓取能力有限,已经不能完成当前的链接抓取更新的需求,这样就促使了基于分布式系统网络爬虫技术的出现,构建一套大区域、分布广的分布式集群系统,多台机器有效的合作、分工,可以有效的消除站点分散,各网间访问速度慢对网页抓取的影响,提高大数据量的计算速度,提高了网络爬虫的性能。分布式的另一个应用就是分布式存储,存储设计也是网络爬虫设计的一个很重要的环节,抓取到得的网页数据的存储方式影响了整个系统的性能,由于其数据吞吐量巨大,简单的数据库存储已经不能满足其需求,因此最好的解决办法就是采用分布式集群存储的方式。   本课题在对上述技术研究的基础上,利用Java编程语言在Linux平台上实现了一套基于Hadoop分布式系统的网络爬虫,本系统具有抓取速度快、覆盖面广、可扩展性好、移植性强的特性,本文从分布式计算和分布式存储两个方面,对分布式网络爬虫系统的架构整体设计以及模块的具体实现流程进行了详细的研究和论述,给出详细的分布式网络爬虫的设计方案、系统整体原理架构图,各模块的MapReduce实现方式,以及各具体模块的具体实现流程。   最后,为了验证该分布式网络爬虫的特性,搭建了一套Hadoop分布式系统测试环境,从功能性测试、性能测试和可扩展性测试三个方面出发,设计了详细的系统测试方案,依据该方案实施了实际数据的测试,并对测试数据进行了分析得出了系统的具体性能参数。  
其他文献
随着计算机技术的发展,数字产品在网络间的传输越来越方便,人们对版权的保护和信息的隐藏也更加重视了。因此数字水印技术出现并迅猛的发展起来了。随着CT图像在网络间的存储和
目标跟踪是计算机视觉领域研究方向中的一个重要方面,它以跟踪目标物体在视频的每一帧中所呈现出的外观和运动状态的变化为主要目的。本文对目标跟踪领域的经典理论和算法进
GPS共视法是目前时间频率远距离量值传递的主要技术,传递不确定度可达几个纳秒,该技术也是目前国际计量局(BIPM)用于国际原子时合作的基本手段之一,其核心是GPS共视法接收机及后
视频自动聚焦是一种应用于精密仪器之技术,它根据场景中图像的信息调节前端设备使图像清晰,广泛应用于安防、医疗、影视行业,具有很大的市场价值和研究意义。因此,论文着重研究了
随着信息技术的不断发展以及人们对视频体验要求的提高,高清、超高清视频处理技术成为了现代视频压缩技术发展的方向。目前,联合视频编码组(JCT-VC)正制定下一代视频压缩标准—
本论文重点研究了基于医疗物联网的体温组网实时监控系统的方案设计以及系统中软件功能的实现方法。   论文在简要介绍医疗物联网中移动远程医疗系统的基础上,设计了体温组
随着信息技术的飞速发展以及人们生活水平的日益提高,家庭中的数字产品越来越多,其中大多数的数字产品具有网络接入功能。如何将家庭中的数字产品通过有线或者无线的方式实现互
作为WLAN、LTE、WiMAX和陆地数字广播电视系统的关键技术,正交频分复用(OFDM)技术由于其频谱利用率高、抗多径衰落能力强等优点,已经成为宽带数字通信研究的热门技术。尽管OFDM技
Nyquist采样定理指出:想要不失真的将信号恢复出来,采样速率必须大于或等于信号最大带宽的两倍。随着生活水平的提高和信息技术的发展,人类对信息需求的数量与质量与日俱增,导
随着红外热成像技术的发展,红外焦平面阵列成像系统已被广泛的应用于夜间监测、非接触式测温以及电器设备热故障检测等领域。然而,受半导体材料和器件制造工艺的影响,焦平面阵列