基于分布式的搜索引擎技术研究与设计

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xinshou2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、互联网技术的快速发展,网络上的信息几乎是呈现爆炸式增长,这对传统的搜索引擎技术带来不小的挑战。面对海量数据的处理和存储,人们对搜索引擎的需求,不仅仅局限于能够尽可能地获取准确的检索结果,还需其具有更好的时效性,更高的可扩展性,更低的故障率。大数据时代,对数据的处理能力要求越来越高,随着分布式计算技术的不断发展,以及云计算的不断普及,基于分布式的搜索引擎无疑会成为未来发展的趋势。本论文针对基于分布式的搜索引擎,论述了国内外对搜索引擎的研究现状以及未来发展的趋势,分析了搜索引擎的工作原理,详细介绍了分布式搜索引擎涉及的相关理论技术。对主要的几种分布式搜索引擎方案进行对比分析,研究改进措施,提出了基于Hadoop的分布式搜索引擎技术方案。根据搜索引擎本身特点,将搜索引擎分为爬行、索引、检索三个子模块,对系统的每个子模块进行详细设计并实现,将Hadoop的Map/Reduce模型和分布式文件系统HDFS应用在整个搜索引擎中。在原有PageRank算法基础,进行优化,添加用户访问反馈影响因子,提出一种基于用户访问反馈的PageRank算法,来对网页进行评分。利用轻量级Web应用框架SpringMVC对检索子模块进行构建,视图层采用新一代Java模板引擎jetbrick-template替代Jsp,提高了页面加载速度,提升搜索引擎的时效性。最后,对实验环境进行介绍和部署,搭建分布式搜索引擎系统,对实现的搜索引擎系统从功能、可靠性、可扩展性几个方面分别进行了测试。对实验结果进行对比和分析,论证了基于Hadoop的分布式搜索引擎技术方案的可行性。
其他文献
针对动车组走行部轴箱振动信号非平稳、非线性且背景噪声频率分布范围广的复杂特性,设计了改进的希尔伯特-黄变换算法(Hilbert-Huang Transform,HHT),综合利用了HHT方法有效
<正>鉴于石油化工行业中装置安全、平稳、高效运行的极端重要性,近年来应用于过程监控中的一些现代在线测量技术越来越多,例如:Raman、核磁、激光、近红外、声发射、静电、γ
3月25日至28日,江苏省委统战部副部长,省工商联党组书记,省光彩事业促进会会长顾万峰带领省委统战部光彩事业专题调研组深入无锡、扬州,就两市光彩事业发展情况进行调研。调
目的观察分析社区护理干预对冠状动脉粥样硬化性心脏病患者生活方式的影响。方法我院2018年1月-2018年12月收治的100例冠状动脉粥样硬化性心脏病患者为本次研究对象,按照是否
<正> 天监四年乙酉公元五○五年左右三十五岁告别定林寺,起家奉朝请,担任中军临川王萧宏记室。是年十一月,萧宏北伐,刘勰当随军而行。关于刘勰起家奉朝请的时间,至今亦无定论。笔者认为,刘勰终齐之世,未获一官,最后不得已入定林寺以聊生,可见其地位卑微。然而“天监初”,梁王朝建立,却能“起家奉朝请”,这其中必有机缘。“奉朝请”虽“无员,亦不为官”,然却是南朝人仕之阶,齐梁间许多显官要员,均由奉朝请始。如沈约、何逊,司马筠、任孝恭等皆是(详见《梁书》各本传)。那么,刘勰何以“起家奉朝请”呢?许多学者认
目的阐述基层医院开展55例体外循环下心脏外科手术的体会。方法选取55例患者作为样本,均行体外循环下心脏外科手术治疗疾病,观察治疗效果。结果55例患者手术成功率100%、死亡
以5A分子筛为原料,Ce(NO3)3&#183;6H2O为改性试剂,通过一步浸渍法并结合干燥、焙烧与研磨过程,制备CeO2/5A分子筛吸附剂,研究了5A分子筛在改性前后及不同温度下对汞的吸附性能,
在全球金融体系中,美国占据举足轻重的位置,其监管政策走向一直为世界广泛关注。在竞选总统之初,特朗普就明确提出了"金融去监管"的口号,主张废除2010年出台的《多德-弗兰克
在经营中,每节约一分钱,就会使利润增加一分,节约与利润是成正比的。许多商人也正是守住了这一优良品格,才不断地走向成功。台塑集团王永庆已故超级富豪、台塑集团创始人王永
目的观察无缝链接护理模式在基层医院急性心肌梗死患者救治中的应用效果。方法选取本院2016年11月至2017年11月期间救治的急性心肌梗死患者128例,根据护理模式不同分为观察组