海量文献数据处理系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:mnswangjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字图书馆的发展和其在人们学习、工作和生活中的广泛使用,它所依赖的文献数据急剧增长,对数据处理的要求也日益复杂。文献数据海量增长和处理操作多样化使得数据处理花费的时间大大加长。如何快速、有效地完成对海量文献数据的处理,成为了文献处理系统面临的主要挑战。   针对文献数据处理遇到的挑战,本文结合在CALIS的相关工作,设计并实现了一个海量文献数据处理系统。该文献数据处理系统支持TB级海量文献数据的高效处理;支持对文献数据进行流程化处理;支持各种文献类型,支持各类型数据,包括元数据和对象数据;系统能运行于由大量、廉价PC组成的集群,有高可靠性和容错性。   MapReduce是海量数据处理领域广泛使用的一个编程模型,本文也借鉴了它的一些设计思想。但MapReduce应用到文献数据处理时会遇到一些问题,如中间结果数据量大、缺乏流程支持、多次迭代时存在空等待等。本文结合文献数据处理的特点,在以下方面改进了改进:   引入了作业流程。数字图书馆中的文献数据工作一般是按照一定业务流程进行,MapReduce缺乏对业务流程的支持,需要用户自己组织管理MapReduce任务。我们对此做了改进,引入作业流程来组织用户的处理任务,并设计了流程化后的任务执行与调度策略。   更灵活的调度策略。MapReduce作业包含不可拆分的Map任务和Reduce任务,Reduce任务必须等Map任务执行完毕才能开始,并且在多个MapReduce作业顺序执行时,下一个作业必须等上一个作业完成后才能开始。我们提供了更细的调度粒度,使得Reduce任务与Map任务能根据需要自由组织搭配,并可以让有先后依赖关系的任务并行执行。   另外,本文设计并实现了一个简单的分布式文件系统,用于文献数据处理时的数据存储和传输。该分布式文件系统基于更为严格的数据只读假设和本地假设,使得分布式文件系统能高效利用本地文件系统提供的支持,能简单有效地保证数据的一致性和并具有很好的容错性。  
其他文献
面对Web所提供的仍在不断扩张的信息海洋,抽样是研究人员了解Web整体特征情况最有力的工具。抽样是一种推论统计方法,它是指从目标总体(Population)中抽取一部分个体作为样本(S
P2P存储系统具有良好的扩展性,并且能够利用边缘网络计算机上的数量巨大的存储容量和网络带宽,具有巨大的服务潜力。自提出以来一直受到学术界的关注,但在其后的时期内却没有出
XML结构查询算法能根据精确的查询条件输出理想的查询结果。不过,该算法不仅要求查询用户熟悉结构查询算法所采用的查询语言,而且还要求了解待查询的XML文档树结构。这些要求对
车载自组织网络(Vehicular Ad hoc NETwork,VANET)是一种以车载无线设备为节点组成的新型的无线自组织网络。与传统的移动自组织网络(Mobile Adhoc NETwork,MANET)相比,车载
随着互联网的发展,Web应用技术不断推陈出新。这期间,客户端和服务器端的通讯机制发生了巨大改变。以通讯机制中的通讯方式和数据交换格式为依据,Web应用可以分为三类:传统的文档
随着互联网的高速发展和广泛应用,web网已成为最大的信息资源仓库,包含几乎任何领域内的数据资源,使用户能方便的获取或共享web空间的信息资源。但信息资源过载始终是制约web
移动互联网络的发展,便捷了移动用户使用,加速了无线互联网的快速发展,其巨大的发展前景成为当前全球互联网络的重要发展内容。移动无线网络中的ad hoc网络因具有各节点地位平等
中文Web信息博物馆中保存了大量的知识,如何有效的挖掘和利用这些知识是一个有意义的课题。本文认为历史网页中站点首页、文章型网页、主题型导航网页都是很有价值的网页。从
虚拟化技术是使若干的操作系统相互隔离的运行在一台物理机上的技术,起源于上个世纪六十年代,近年来在各大公司和科研机构的带领下虚拟化蓬勃发展,相关领域的研究工作和研究成果
双目视觉是计算机视觉领域的一个重要研究方向,它通过模拟生物视觉,使计算机具有利用二维图像感知三维环境信息的能力。立体匹配作为双目视觉中最关键和最困难的部分,近年来