在线(实时)检索系统的缓存研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:miocoo_daniel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的增大,网络的普及,以及最近社交网络的兴起和突发新闻事件的迅速传播等趋势,网民不仅对检索系统的全面性,还对检索系统的时效性都提出了更高的要求。因此,在线(实时)检索系统的重要性日益凸显。在索引规模增大、检索速度要求提高、检索结果时效性要求提高的多重压力下,对在线检索系统的性能改进就成为重要的研究目标。   传统上,提升检索系统性能,同样可以使用缓存。然而,尽管已经有了很多研究提出各种缓存替换算法,这些算法主要都是致力于提高缓存的命中率。通过对在线检索系统的分析,本文认为,保证检索结果的时效性是应用在线检索的重要目的。传统上,缓存中的结果在没有替换出去之前,是不会得到更新,从而损害了检索结果的时效性。因此,需要针对在线检索系统的特点,改进缓存机制。   本文首先分析了在线检索系统的实际特点,并通过实验对比分析,给出了时效性的定义以及评价指标,并且通过融合命中率等性能指标,给出了用于在线检索系统的缓存的综合评价指标。这个指标能够更加全面地反映各个缓存算法在在线检索系统中的适用性,可以作为挑选合适算法的客观依据。   本文通过实验,对比了传统缓存替换算法在在线检索系统中应用的表现。通过分析,可以看出,传统的缓存替换算法尽管能够保证缓存的命中率,却损失了检索结果的时效性。   随后,本文针对在线检索系统的特点,给出了缓存结果超时刷新的机制。并结合检索开销、结果集空间开销等因素,给出超时时间设置的算法。接着,通过结合热门查询和索引更新情况,进一步给出调整超时时间的方法。实验结果表明,超时刷新方法在时效性上比替换算法有较为可观的进步,同时综合指标也有一定的提高。   本文进一步提出了将索引更新的文档主动推送到缓存结果中的方法,以避免缓存项刷新带来重新检索的计算开销,并给出详细的实现机制。实验结果表明,主动推送方法可以以较低的代价获得时效性的进一步提高。   最后,本文给出了一个在线检索系统以及相应的缓存系统的原型实现的详细描述。性能分析表明该系统总体上达到了对性能要求较高的实时检索应用的需求。
其他文献
计算机技术以及传感器网络的发展,深刻改变了传统的数据采集方法。尤其是生态学中的野外生态观测研究正逐渐朝着自动化、网络化、智能化、常态化的方向发展,是现代生态学科研信
随着互联网技术与移动通信技术的发展,各行各业都积极地将自身的业务与互联网平台相结合,形成“互联网+”的新局面。人们享受着互联网平台方便快捷的同时,也迷失在由它带来的海
蒸汽系统是钢铁石化等工业企业的重要组成部分,它消耗燃料,为整个生产过程提供蒸汽、电力、冷却水等公用工程。蒸汽系统的安全稳定运行是企业安全、稳定、长周期运行的基础。蒸
随着大数据和云计算的发展,分布式文件系统在众多的存储系统中扮演着越来越重要的角色。与此同时,数据仓库也经历了概念的提出、理论的逐步完善、初步建立仓库,到现在发展成熟等
显式语义分析技术ESA,通过对知识库(如Wikipedia)的处理,构造出各个词到每个概念的倒排索引,并且计算出词到每个概念的权值,表示词与概念的相关度。因此,这个倒排索引可以看作是由词
动态二进制翻译系统中,动态优化技术能根据程序运行时的行为实时地调整代码优化策略,提高程序性能。在传统的系统设计中,代码的优化和代码的执行在同一个进程中分时进行,因此
针对大多现有软件无法通过修改编译后的二进制代码来实现通信保护的问题,提出一种基于LSP通用的保密通信模型。通过分析分层服务提供者(LayeredService Provider,缩写LSP)的实
候鸟迁徙卫星跟踪系统的成功应用,使得青海湖地区鸟类积累的卫星跟踪数据量越来越大。为了准确的获取对青海湖鸟类数据的认知,探究数据背后的知识,本文设计了多个新颖、充实的可
随着网络应用和技术的快速发展、网络规模的不断扩大,网络测量和监控是监控网络状态保证网络正常运行的必要手段,同时网络测量技术也是学习和研究网络行为模式,为改进网络协议、
近年来,随着公众对信息安全重视程度的逐渐加深,传统的基于PC或服务器平台的人脸识别系统己无法满足人们对便携性和易用性的需求。局限于人脸识别系统对计算能力与存储容量的