企业级搜索引擎动态索引系统的研究与设计

来源 :武汉大学 | 被引量 : 0次 | 上传用户:xujingtony
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的普及和网上信息的爆炸式增长,数据的规模呈指数增长.搜索引擎(Search Engine)的出现在一定程度上缓解了人们在网上搜索信息困难的矛盾,同时它已成为因特网信息检索的主流方式.但是目前大部分的搜索引擎查询效率和查询质量还不尽人意,特别是对特定的用户群体更是无法满足个性化的搜索需求.对企业级搜索引擎来说,各企业内部信息发布、更新等操作相对于一般商业性Web搜索引擎更加频繁.索引的动态性是搜索引擎的一个必然要求,只有实时动态索引更新才是完全意义上的动态索引.它不仅依靠系统本身对搜索网页集合的更新进行监测,而且要求索引更新是实时完成的,而不仅仅在系统刚启动时更新一次,但目前它同时也是一个技术难点.该文首先简单介绍了索引系统的理论模型,给出了从搜索端数据库到检索端数据库的整体流程图.在此基础上,作者给出了适合企业级搜索引擎索引系统的整体存储结构.其中为使用户在浏览感兴趣的网页时可以直接连接类似网页,我们通过子类类别进行联系,从而增强了查准率和查全率.该文在索引设计时,主要围绕节省系统资源和提高检索效率这两个核心思想.该文指出使用循环冗余算法(CRC)得到的网页唯一标识ID,使得在URL处理的时候,不是处理URL字符串而是处理此标识ID.文章中给出了详细的实现算法程序.该文针对传统倒排文件索引结构不利于索引更新的缺点,详细给出了倒排文件的存储结构与算法描述.同时,为适应企业级搜索引擎索引更新频繁的特点,作者提出了使用Hash表来快速定位到需更新的网页及信息.此方法可在不降低索引建立效率的情况下,提高索引的动态更新性能.由于倒排表的创建占用巨大的内存空间,为此作者指出使用基于"块编址"的倒排索引压缩存储思想.该文在给出基本算法描述的基础上,以压缩索引与传统倒排索引在空间需求和查找时间上的实验对比数据为依据,说明使用索引压缩存储的方法可使该系统在不显著降低检索效率的同时可大大减少系统中倒排文件占用的存储空间.
其他文献
现代软件开发更加注重过程的控制作用。在软件开发中,软件过程把人、工具以及规程和方法集成在一起,生产出高质量的软件产品。对软件过程的支撑技术的有诸多方面的研究。 已
信息溯源是指采用一系列的方法和技术手段将内容、网络行为以及应用行为等追溯到其发起者。一般情况下可以通过数据连接的四元组判断信息的来源或者发起者,但是当信息发送者
该文试图通过分析"天网"搜索引擎的日志来得到用户访问"天网"系统的一般性规律,并从分析结果出发改造搜索引擎.为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户
计算网格是跨管理域的分布式计算平台,它将地理上分散的、属于不同管理域的、异构的计算资源通过高速网络连接,为用户提供可视化的访问接口,支持复杂应用问题的求解和广域网
该文主要是对构造嵌入式Linux实时操作系统中的关键问题进行讨论和研究,并且论述了为满足嵌入式领域的需要,把Linux改造成嵌入式实时操作系统的设计和实现过程.论文首先综述
随着Internet的迅猛发展,从互联网中搜索自己需要的信息成为人们获取信息的主要方式.虽然网络搜索引擎为用户查找信息提供了极大的方便,但在智能化程度和反馈信息的组织上都
现代网络技术的快速发展,特别是Internet的日益普及,使得计算方式步入了以网络为中心的计算时代,传统的信息系统概念也发生了巨大的变化,而这些变化突出的表现在信息的存储、
随着计算机和计算机网络的飞速发展,信息系统安全成为当前研究的热点课题。作为信息系统核心的数据库的安全,尤其是网络环境中的数据库的安全则成为重中之重。而国内企事业单位
信息化建设的进程在教育行业迅速推进,“学校信息化”、“校园网”、“校校通”成为当前网络建设的热点。教务系统是校园数字化建设中的重要组成部分。随着系统需求不断复杂,迫
随着计算机系统的广泛应用和不断发展,计算机系统上的各类信息资源的安全性越来越受到人们的关注与重视。而一个系统中的信息的安全性,很大程度上取决于其所基于的安全模型和体