基于MapReduce的分布式网络蜘蛛研究与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:liongliong590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络蜘蛛为搜索引擎提供了需要检索数据的来源,其性能直接影响着搜索引擎的服务质量。进入Web2.0时代后,互联网数据呈现出海量增长的趋势。面对海量页面数据,如何能够及时获取高质量的页面以及有效存储和计算抓取过程中产生的数据是网络蜘蛛面临的重要问题。分布式技术以其高性能的特点成为解决这些问题的有效方案。  本文使用分布式技术对传统串型工作方式的网络蜘蛛进行改进,设计实现基于分布式系统的并行工作蜘蛛,即分布式网络蜘蛛。首先,因为海量页面质量参差不齐,所以需要设计有效的策略对页面进行有选择地抓取,本文基于页面的动态变化特性,结合历史信息参考策略、大站优先策略和PageRank页面重要度评分技术,提出了新的多级权值抓取策略对页面进行更为有效地抓取;其次为了使网络蜘蛛并行分布式地高速运行,我们利用MapReduce分布式计算技术,设计了URL分发器,对抓取到页面的URL地址进行有效分析,使得抓取的页面能够进行有效的聚集;基于此,给出了带URL分发器的对等式网络蜘蛛架构;同时利用分布式文件存储系统(Hadoop Distributed File System,HDFS)技术,对网络蜘蛛的分布式存储结构进行设计;利用MapReduce和HDFS分布式技术特点,给出了具体的key/value设计,规划相关key/value数据流转;最后将通用抓取框架、URL分发器、多级权值抓取策略、和PageRank算法进行有效地组合设计,并对得到的算法进行了分布式并行实现。为了验证分布式网络蜘蛛的性能,搭建Hadoop集群环境对其进行了分析和测试。  分布式网络蜘蛛对海量页面能进行有效的抓取,通过并行高速实现,提高了抓取的性能和速度。基于此,可以提高搜索引擎的工作效率和质量,从而提高信息处理的速度并改善查询的体验。本系统结构具有兼容性和灵活性,可方便的在其上进行兼容和扩展,为搜索引擎的并行设计与实现,进行了探索,提供了有效途径。
其他文献
该文章阐述了系统建模在信息系统开发中的作用和重要性,运用传统的建模技术对系统进行分析和描述.信息系统就是一个现实世界里系统的代表,系统建模是系统实施前对实际系统的
配电网是电力系统的重要组成部分,配电网的安全稳定运行对我国国民经济发展起着至关重要的作用。随着我国社会经济高速的发展,电力系统容量和用户数量不断增加,大量的新型设备不
博弈论是相对年轻的科学,迄今才70余岁,自诞生之日起,博弈论在理论和应用上都取得了巨大的进展。在理论上,现有的博弈论研究的往往是参与者地位平等以及博弈的结构与参数对参与者
本文围绕搜索算法在智能控制程序中的应用,进行了两项研究:智能控制Ms.Pac-Man游戏和智能控制Tetris游戏.同时本文还包括对一般符号序列的幂律现象和长程相关模型的研究,内容
从细胞、细菌、动植物乃至人类社会,这些旨在最大化个体收益的非完全理性相互竞争个体组成的群体能够出现合作行为一直引起众多学者的研究兴趣,因为这似乎与物竞天择、适者生
本文主要研究了具可加噪音的强阻尼随机Kirchhoff方程{dut+(-α△ut+βut-(1+(∫Ω|▽u|2dx)ρ)△u+g(u))dt=f(x)dt+ q(x)dW(t),x∈D,t∈[0,+∞),u(x,t)|x∈(e)D=0,u(x,0)=u0(x),
为促进中国金融系统的改革与发展,很多人、很多部门做出了很多努力,虽然目前中国的金融业、银行业改革各个方面已经取得非常重大的进展,获得很多成就。但是在一些重要的理念
随着对能源安全问题的日益突出,对能源的管理和利用引起人们的高度重视。能源的生产、消费是有规律的,建立能源分析系统对于能源的计划供应和合理利用具有重要意义。   论文
基于金融市场高频时间数据的实证研究,人们再现了金融市场“尖峰胖尾”现象的典型事实,表明了传统金融理论所认为的价格波动服从正态分布的错误性,这意味着极端事件发生的概率要
学位