论文部分内容阅读
伴随着互联网的普及和网上信息的爆炸式增长,数据的规模呈指数增长.搜索引擎(Search Engine)的出现在一定程度上缓解了人们在网上搜索信息困难的矛盾,同时它已成为因特网信息检索的主流方式.但是目前大部分的搜索引擎查询效率和查询质量还不尽人意,特别是对特定的用户群体更是无法满足个性化的搜索需求.对企业级搜索引擎来说,各企业内部信息发布、更新等操作相对于一般商业性Web搜索引擎更加频繁.索引的动态性是搜索引擎的一个必然要求,只有实时动态索引更新才是完全意义上的动态索引.它不仅依靠系统本身对搜索网页集合的更新进行监测,而且要求索引更新是实时完成的,而不仅仅在系统刚启动时更新一次,但目前它同时也是一个技术难点.该文首先简单介绍了索引系统的理论模型,给出了从搜索端数据库到检索端数据库的整体流程图.在此基础上,作者给出了适合企业级搜索引擎索引系统的整体存储结构.其中为使用户在浏览感兴趣的网页时可以直接连接类似网页,我们通过子类类别进行联系,从而增强了查准率和查全率.该文在索引设计时,主要围绕节省系统资源和提高检索效率这两个核心思想.该文指出使用循环冗余算法(CRC)得到的网页唯一标识ID,使得在URL处理的时候,不是处理URL字符串而是处理此标识ID.文章中给出了详细的实现算法程序.该文针对传统倒排文件索引结构不利于索引更新的缺点,详细给出了倒排文件的存储结构与算法描述.同时,为适应企业级搜索引擎索引更新频繁的特点,作者提出了使用Hash表来快速定位到需更新的网页及信息.此方法可在不降低索引建立效率的情况下,提高索引的动态更新性能.由于倒排表的创建占用巨大的内存空间,为此作者指出使用基于"块编址"的倒排索引压缩存储思想.该文在给出基本算法描述的基础上,以压缩索引与传统倒排索引在空间需求和查找时间上的实验对比数据为依据,说明使用索引压缩存储的方法可使该系统在不显著降低检索效率的同时可大大减少系统中倒排文件占用的存储空间.