大规模动态文本在线索引技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：CoolSky_BO

【摘要】

：

索引技术是现代信息检索、搜索引擎和数据挖掘的关键技术之一。对于大规模文本检索系统，倒排索引是目前为止最高效的数据索引方法。倒排索引包含了词(Term)对应文档的关系信息

【作者】

：

郭瑞杰

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2008年期

【关键词】

：

在线索引垃圾回收倒排索引数据挖掘大规模动态文本

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

索引技术是现代信息检索、搜索引擎和数据挖掘的关键技术之一。对于大规模文本检索系统，倒排索引是目前为止最高效的数据索引方法。倒排索引包含了词(Term)对应文档的关系信息，可以用来快速解析用户的关键字查询。在过去的几十年中，离线倒排索引构建算法(Off-line Index Construction Algorithms)得到了广泛而深入的研究，目前的倒排索引构建算法都具有较低的时间复杂度和空间复杂度，理论上可以使用有限的内存空间构建无限数量文档的倒排索引。但是，这种倒排索引构建算法假设文档集在索引构建过程中是不变化的，而且在索引构建过程中也不能接受文档查询操作。　　然而，随着Web2.0的出现和电子商务的发展，Web数据的变化越来越频繁。同一个关键词的前一秒搜索和后一秒搜索的结果都会因为Web数据的增加、删除和修改而不一样。本文研究这种大规模动态文本的在线索引构建技术(On-line Index Maintenance)，构建的倒排索引可以实时反应文档集的动态变化情况，支持高效的文档添加、删除和修改操作；同时在索引构建过程中，仍然可以接受查询操作，将文档集的变化情况实时反应在查询结果中。我们详细分析和归纳了各种离线倒排索引构建算法和已有的几种增量文本倒排索引在线更新算法。在数据变化非常频繁的搜索应用中，这些方法的索引更新和查询处理性能将急剧下降。因此，本文提出了一种新的动态平衡树(Dynamic BalanceTree)在线索引更新模型。我们把基于合并的索引更新过程表示成树的构建过程，提出了动态平衡树的概念，用来统一描述索引更新过程和控制索引数据的更新。这种模型不仅适合增量文本的在线索引更新，也适合文档添加、删除和修改同时存在的动态文本的在线索引更新，可以很好地处理索引构建和查询处理之间的性能均衡问题，是基于合并的索引更新方法的一个统一框架。在大规模Web数据集上的实验测试表明，基于动态平衡树模型的在线索引更新方法是高效的，具有很好的适应性和规模可扩展性。　　倒排索引构建算法对文档删除的支持是动态文本在线索引的另一个重要方面。我们深入探讨了文档删除对倒排索引构建和查询处理的性能影响，对已有的删除文档垃圾回收算法进行了分析。在基于门限值的在线索引垃圾回收方法基础上，提出了一种面向粒度的垃圾回收方法，减少了在垃圾回收中代价颇高的倒排链(Posting list)重构操作。此外，我们将跳表(Skip List)引入到倒排索引结构中，进一步提出了一种基于跳表的自适应粒度(Adaptive Granularity，AG)垃圾回收方法。跳表在逻辑上将倒排链分成删除区块和无删除区块，而区块作为垃圾回收的粒度，可根据删除文档的分布情况自适应调节。该方法不仅可以避免对无删除区块进行重构，而且也可以避免对删除区块进行处理，显著提高了垃圾回收效率。实验表明，面向粒度的垃圾回收方法将垃圾回收的性能提高将近20％，而基于跳表的自适应粒度垃圾回收方法则提高30％以上。　　此外，我们研究了目前一些主流的信息检索系统，对这些系统所采用的技术和算法进行了分析。由于目前已有的信息检索平台绝大部分都是面向静态文本的离线检索平台，因此，我们设计并实现了一套既支持传统信息检索实验，又面向动态文本在线索引的实验平台FirteX。该平台有良好的架构、并具有高性能、高可伸缩性、易扩展和易维护等特点。FirteX曾获得第二届东北亚OSS竞赛杰出贡献奖、第二届(2006)中国开源软件竞赛学生组银奖和中国科学院第二届开源软件设计大赛一等奖等奖项。　　动态文本在线索引技术的研究最近几年得到了广泛的关注。本文的研究工作对于推动这一研究方向的发展具有较为重要的启发意义。本文的检索系统是一个新的尝试，也是传统信息检索平台的重要突破，对于推动新型在线索引和检索系统的发展具有较为重要的带头作用。当然，在线索引技术还有很多工作要做，需要相关领域的研究者们不懈努力。

其他文献

SIP流媒体广播应用服务器体系结构的研究

随着IP技术的发展和日趋成熟,以VoIP(Voice over Internet Protocol)为代表的NGN(Next Generation Network)通信作为一种典型的宽带应用正面临着前所未有的发展机遇。SIP(Ses

学位

VoIPSIP协议流媒体广播应用服务器

内存系统性能分析与优化技术研究

“存储墙(Memory Wall)”问题已经提出了10多年，学术界、工业界都在努力地改善CPU与Memory之间的差距。随着多核技术的发展，“存储墙”问题更严峻，内存的延迟与带宽都成为了计算

学位

内存系统性能分析访存行为DIMM侦听机制

印鉴识别系统的研究

尽管生物测定学已经在许多领域中得以广泛应用，但是印鉴识别作为一种个人身份认证被广泛应用于日本等一些亚洲国家，印鉴应用于多种类型的文档。随着信息化的普及和办公自动化程

学位

印鉴识别图像处理印鉴图像特征提取图像去噪

主动网络可靠组播的拥塞控制方法的研究与实现

随着Internet网络技术的不断发展和应用领域的日益拓宽,许多新的服务如网上直播、远程诊疗等不断展现出来,开展这些服务离不开网络环境中的组播技术的支持。组播技术是相对于

学位

主动网络可靠组播拥塞控制

基于不动点理论的遗传算法研究

通过引入欧氏空间的连续自映射不动点算法提出求解函数优化问题的改进遗传算法,并提出了两种分别针对单目标和多目标优化问题算法模型。这两模型都将剖分理论引入遗传算法,对

学位

遗传算法不动点单纯剖分整数标号Pareto最优解Pareto前沿

基于贝叶斯分类算法的Maze敏感资源识别系统的设计与实现

目前，在P2P文件共享系统中，以色情和政治不良倾向为代表的敏感资源广为传播，对社会造成了很坏的影响，如何识别并过滤这些敏感资源，成为当前P2P文件共享系统所面临的一个共同技术挑

学位

贝叶斯分类算法敏感资源资源识别共享系统匹配算法对等网络

基于稠密向量的索引技术研究

文本检索通常分为两个阶段，初始检索和重排序。初始检索目标是以较低的代价从整个文档集合中检索出一小部分文档，使其包含尽可能多地相关文档，即具有较高的召回率。初始检索过程

学位

文本检索稠密向量符号搜索多样性近邻度平衡哈希表示

基于资源分布关系的Maze资源社区发现系统

随着互联网上资源的不断丰富，越来越多的人们通过网络进行资源的搜索，共享，浏览和下载。在P2P对等系统中，用户的这些行为和需求体现得更加明显。在传统的方法中，人们通过关键词搜

学位

资源社区发现算法信息提取聚类分析资源社区描述Maze系统资源分类算法系统架构

光纤瓦斯传感器的设计研究

在煤炭这个行业中,特别是在我国,瓦斯灾害一直困扰着我们。开采煤矿的整个过程中,特别是随着煤炭开采深度的增加,在安全这个方面上出现的问题是越来越多,因为瓦斯爆炸而出的

学位

光纤传感器瓦斯安全光谱吸收

虚拟夹具在机器人遥操作中的应用

传统的机器人遥操作模式大多数是基于视频反馈技术,操作者采用“运动-等待”的方式,一方面由于有限的网络带宽不能准时正确地传输远程的数据图像而导致误操作,另一方面网络时

学位

机器人机器人虚拟夹具虚拟夹具遥操作遥操作预测仿真预测仿真

大规模动态文本在线索引技术研究

其他学术论文