论文部分内容阅读
随着当前网络技术的发展,数字图书馆拥有越来越庞大的数据资源,然而广大用户可能难以确定有效的检索词来获取需要的资源。针对上述问题,本文以国家“211”工程“中国高等教育文献保障系统”(简称CALlS)“十五”项目“中国高等教育数字图书馆”为背景,提出了一种新的基于反馈的相关度计算方法,设计和实现了基于该方法的检索相关词提示子系统。
本文提出的基于反馈的相关度计算方法是在局部文档内容分析的基础上,引入用户反馈,将用户点击文档和对相关提示词的使用情况纳入计算。该方法一方面使得相关词的选取来自文档内容,相对比较客观,也符合检索引擎进行计算的内部表达,另一方面能够加入用户的主观判断。该方法建立在对大量用户长期查询行为分析的基础上,比系统在毫无人为参与的情况下得到的结果更为准确,并能够具有一定的时效性,反映出用户在某一特定时间内的兴趣。
本文设计并实现了基于反馈的检索相关词提示子系统。该子系统针对CALlS数字图书馆海量数据的高效检索和相关度算法数据存储结构的特点,采用一种新的数据分布式存储方案及相应的索引结构和缓存策略。
该子系统采用多层架构设计,使得系统各个层次清晰,系统组件易于替换。系统可以适时调整相关词计算策略,缓存策略等。整个子系统是一个易于扩展,具有高适应性的系统。本文还设计了一种准实时的系统服务策略,该策略预先计算索引和相关词,提高了线上服务的效率。
本文将基于反馈的检索相关词提示子系统应用于CALIS统一检索服务平台中。实验证明,该子系统能够实时高效地计算出有效的相关提示词。通过计算出的提示词,可以帮助用户改进检索词使其获得更好的检索效率和效果,从而提高了统一检索服务平台的服务效果。