基于反馈的检索相关词提示子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:sky_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当前网络技术的发展,数字图书馆拥有越来越庞大的数据资源,然而广大用户可能难以确定有效的检索词来获取需要的资源。针对上述问题,本文以国家“211”工程“中国高等教育文献保障系统”(简称CALlS)“十五”项目“中国高等教育数字图书馆”为背景,提出了一种新的基于反馈的相关度计算方法,设计和实现了基于该方法的检索相关词提示子系统。   本文提出的基于反馈的相关度计算方法是在局部文档内容分析的基础上,引入用户反馈,将用户点击文档和对相关提示词的使用情况纳入计算。该方法一方面使得相关词的选取来自文档内容,相对比较客观,也符合检索引擎进行计算的内部表达,另一方面能够加入用户的主观判断。该方法建立在对大量用户长期查询行为分析的基础上,比系统在毫无人为参与的情况下得到的结果更为准确,并能够具有一定的时效性,反映出用户在某一特定时间内的兴趣。   本文设计并实现了基于反馈的检索相关词提示子系统。该子系统针对CALlS数字图书馆海量数据的高效检索和相关度算法数据存储结构的特点,采用一种新的数据分布式存储方案及相应的索引结构和缓存策略。   该子系统采用多层架构设计,使得系统各个层次清晰,系统组件易于替换。系统可以适时调整相关词计算策略,缓存策略等。整个子系统是一个易于扩展,具有高适应性的系统。本文还设计了一种准实时的系统服务策略,该策略预先计算索引和相关词,提高了线上服务的效率。   本文将基于反馈的检索相关词提示子系统应用于CALIS统一检索服务平台中。实验证明,该子系统能够实时高效地计算出有效的相关提示词。通过计算出的提示词,可以帮助用户改进检索词使其获得更好的检索效率和效果,从而提高了统一检索服务平台的服务效果。
其他文献
为了评估信用风险,研究人员做出了大量的努力,提出了各种度量和管理信用风险的方法。经典的评估模型一般将着眼点放在被评估公司自身的信息上,然而银行界获得的越来越多的共识是
随着网络技术的飞速发展和嵌入式处理器能力的不断提升,基于嵌入式Linux的网络视频监控系统逐渐成为了监控设备中的主流,因为嵌入式Linux功能强大且费用较低。但是直接移植Linu
由于如今Web应用的高速发展所带来的数据规模的海量性、数据模式的多样性和不确定性,使得传统的数据管理技术在可扩展性、高效性和可靠性方面越来越不能满足应用的需求。数据
在数字图书馆建设中,人们面临着一个问题:如何高效地将现有的海量的纸质文档或者电子文档制作为可供计算机阅读、检索、查询、传播等操作的电子出版物。对于电子出版物,其所含有
随着硬件性能的不断提升,计算机正在被赋予越来越艰巨的任务,运行其上的软件作为沟通人类思维和底层硬件的桥梁,其重要性日益增加。与此同时,软件系统的规模也在不断变大,所涉及的
面向应用层的细粒度网络协议识别技术当前被广泛应用于上网行为管理、网络流量分析与控制和下一代防火墙等多种网络安全应用场景中,而随着网络应用数量的增长,待识别协议特征集
随着互联网上信息的逐渐增长,要找到某一方面的信息变得越来越困难。人们逐渐希望得到一种有效的方法来查找对自己有用的信息。使用搜索引擎进行搜索就成了检索信息的有效的方
嵌入式系统广泛采用Linux作为操作系统,它们大多数直接由标准的Linux移植过来,其内核的存储管理子系统对嵌入式系统硬件平台的可剪裁性支持有限,特别是没有专门针对众多无硬盘典
本文通过对目前比较流行的三维人脸动画技术的研究,提出了一种基于文本和语音驱动的人脸表情动画算法的实现,并拟将该算法运用到三维虚拟教学环境之中。通过虚拟教师面部表情的
随着电信网、互联网和广电网业务的发展,家庭用户的市场需求呈现出媒体互动化、业务多样化和终端综合化的特点,在国家信息产业“三网融合”战略的推进下,家庭手机屏、PC屏、T