基于分布式索引的信息检索系统的设计和开发

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ioljok1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展和计算机互联网的普及,给人们的生活带来了前所未有的变化,尤其是人们获取信息的途径得到丰富。在这个过程中,搜索引擎正扮演着越来越重要的地位。人们在要求搜索的查全率和查准率的同时,也对搜索的性能提出了要求。分布式系统与并行计算技术的发展是我们提高搜索引擎的性能的前提。本文的工作正是要设计和开发一个基于分布式索引的搜索引擎的信息检索系统。 本文设计和实现了一种基于集群系统的分布式信息检索系统,系统包括Server节点、Client节点、Proxy节点和Checker节点,这四种计算节点互相配合,完成一个完整的信息检索模块的功能,包括建立索引和索引查询等等,设计目标是为了实现整个系统性能上的提升。 在分布式信息检索系统中,索引文件分布在不同的Client节点之上,由Server节点统一管理建立索引的过程和Cliem节点的生存状态,以此达到建立索引的并行化,提高建立索引的效率;在检索过程中,Proxy节点负责接收用户的查询请求,并将查询和全局数据一起进行封装,分发给负责具体查询工作的Client节点,再对Client节点返回的结果进行合并,返回给用户,这样就实现了检索的并行化,提高了检索的效率;在Client节点之间实现了索引文件的冗余备份,并实现了一套与此相对应和数据恢复和备份索引查询的机制,使分布式索引系统拥有了一定的容错性能。系统基于开源软件Nucth而实现,并基于Map/Reduce实现了分布式索引的建立流程。实验验证了系统在多Client节点的情况下建立索引和索引检索性能的提升,以及在Client节点出现崩溃的情况下系统具有较好的容错性能。 在检索系统的检索效果优化方面,提出了一些对查询结果进行修正的算法,包括二次排序优化和扩展查询,其效果已经在SEWM2006的中文信息检索测评中得到验证。并设计了基于拼音的拼写纠正和基于用户日志的相关查询两个模块,方便用户使用。 业已实现的分布式索引的信息检索系统将在教育网上提供教育信息的检索服务。
其他文献
本文通过对荣华二采区10
期刊
番茄青枯病是一类危害严重的世界性土传细菌病害,它的有效防治已经成为番茄生产中亟待解决的难题。本研究从生物防治的角度出发,分离筛选了对番茄青枯病有拮抗作用的菌株,通
扬声器是声系统设备的终端环节,是最重要的电声器件之一。自扬声器诞生而来,关于其基本原理、设计方法及失真补偿等的研究从未间断。近年来,随着移动多媒体的快速发展,小尺寸扬声
地面运动目标检测成像是合成孔径雷达(SAR)领域中一个十分活跃的研究热点,无论在军事上还是在民用中都具有非常重要的作用。本论文研究了三天线合成孔径雷达动目标的检测成像
烟叶生产机械化是提高烟叶生产效率、降低成本的重要途径.本文以云南省澄江县烟叶生产基地为依据,根据烟叶生产机械化的十一个作业环节进行了机具的作业性能、作业效率等项目
摘要:人教版义务教育教科书九年级化学下册第十单元第 56 页“碱的化学性质”中涉及二氧化碳和氢氧化钠溶液反应的描述,但因非金属氧化物二氧化碳、二氧化硫、三氧化硫与氢氧化钠溶液反应现象不明显,且教材并没有设计实验证明二者真的能发生化学反应,因此学生在学习这一类反应时缺乏感性认识,较难理解和掌握。为此,以“二氧化碳和氢氧化钠溶液是否发生了化学反应”为切入点,进行探究,以便在今后的教学过程中能提高学生分
移动互联网时代,人们对移动数据业务的需求迅速增长,据CiscoVNI全球移动数据流量预测报告预测,到2019年全球移动数据流量将比2014年增长近十倍。同时,调查发现超过50%以上的
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
松科植物的叶绿体和线粒体基因分别为父系和母系遗传,二者的联合分析为系统发育重建,特别是揭示网状进化过程提供了便利条件。此外,松科中的多个属(如黄杉属、铁杉属等)呈洲际间
学位