备份系统中流式全文索引嵌入模型的研究与设计

来源 :中山大学 | 被引量 : 0次 | 上传用户:BING_YAN3414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着本地存储设备容量的增大,文件数量的增多,数据备份系统中的归档集规模也日益庞大。现有的数据备份系统,无论是开源还是商用,归档管理中都缺乏对归档文件按内容搜索的功能,用户在归档集中寻找相关内容的信息时,需要手动在成千上万个归档文件中查阅,严重地降低了信息查找的效率。 本文首次提出将全文搜索与数据备份系统相结合的思路,即在备份文件的同时对文件建立全文索引,最终实现对归档集进行按内容搜索的功能。备份系统对文件的处理是一次扫描的,为了提高性能,我们希望备份和建索引的过程是在一次扫描过程中同步完成的。然而,备份系统中文件是以数据流的形式输入的,备份处理是对数据流中连续的固定大小的数据段分次进行,这意味着一个文件可能要被分成多段处理。现有的开源全文搜索引擎,处理文件时都是以完整文件为处理单位,不支持对文件数据流的多段处理。在数据备份系统中,我们需要的是一个能够支持文件流式全文索引的子模块。 本文介绍了全文搜索引擎原理及中文分词等关键技术,通过分析各种类型的文件格式以及研究开源搜索引擎框架Lucene的内部结构,建立了一个流式全文索引的嵌入模型,然后用半形式化的语言,对数据流及流式嵌入模型的特点进行了分析与描述;在该理论模型的指导下,结合现有技术实现了一个应用原型,该原型支持对文件数据流的分段文本提取和全文索引,并能够作为子模块嵌入到数据备份系统中,使备份与全文索引过程同步,有效地把全文搜索同数据备份系统结合起来,最终实现了对备份生成的归档集进行按内容搜索的功能。本文同时也为有相似需求的领域提供了设计级复用的基础。
其他文献
目前,一些企业偷税漏税手段复杂、花样翻新,成为税务稽查的一个难题。传统的稽查选案是以举报信息为主要依据的,这很大程度上依赖于专业的稽查人员根据以往的工作经验和某些直觉
随着社会信息化的不断发展,人们对Web信息管理系统的需求也不断增加。由于这类系统各模块的相似度比较高,因此开发人员在开发这类系统时会出现重复性编码工作。国内外很多研
随着信息技术的发展以及企业服务意识的提升,呼叫中心得到了广泛的应用,例如为用户提供如天气预报、股市行情、产品的最新报价、查询费用等信息。然而当人们希望在比飞机航班或
随着Intenet迅猛发展,各种资源不断增多。为了快速、高效的查找信息,信息处理以成为当前重要的研究领域。针对信息处理涉及的内容,本文对中文信息处理中的若干关键技术进行了
因特网已经应用到社会生活的方方面面,人们对网络安全的要求也逐渐提高。入侵检测作为一种积极主动的安全防护技术,对它的研究倍受重视。本文首先介绍了目前国内外入侵检测技
随着网络信息的急剧增长,在搜索引擎中使用确定的查询词检索时,返回结果一般是一个庞大的相关文档集列表。如何从该列表中快速获得想要的信息就成为一个极具研究价值的问题,解决
没有一套需求理论能放之四海而皆可用,因为不同的需求方法各有其专注的领域;同样,需求验证方法也必须遵循需求模型的特点才能达到更好的验证效果。本文针对主谓宾需求模型提出基
作为计算机学科的一个重要应用方向,生物特征识别技术正在成为一个蓬勃发展的研究领域,笔迹鉴定技术则是其中具有吸引力的一个方向。近年来,一些发达国家已把生物特征识别技术,从
随着数据时代的来临,大数据的分析、挖掘与可视化成为了信息技术发展的研究热点。数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来并进
基于工程图的三维形体重建技术是根据形体在二维投影视图中的几何信息和拓扑信息生成相应的三维形体,这是一个从低维到高维的构造过程,目前已成为CAD与CAM中的重要研究课题。