引入WiKi知识库的历史网页推荐性检索系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：jiangfan520

【摘要】

：

本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按照时间排序。当检索结果按时间排序时,可能

【作者】

：

林武

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2011年期

【关键词】

：

历史网页主题模型推荐性检索系统查询过滤相关反馈统计语言模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按照时间排序。当检索结果按时间排序时,可能会导致低相关度的网页排在返回结果前面的问题。这是导致用户对检索结果不满意的一种原因。导致用户不满意的其它原因还包括查询词过短和歧义。本文提出引入Wikipedia数据集作为外部数据源,来减少用户的不满意度。在Wikipedia的辅助下,进行基于Wikipedia类别的相关推荐能够减少查询词出现歧义的情况。借助Wikipedia,进行查询反馈和过滤来处理由原来简短的查询词所带来一些的问题。本文研究并设计了在查询推荐,查询反馈以及过滤中的相关算法。最后提出了一种新的排序策略,考虑了按时间排序和相似得分两种因素。　　更具体来说有以下几个方面:　　 1.首先本文提出基于Wikipedia“分类”域的查询推荐。由于Wikipedia分类不是经过严格定义的关系,不少”分类”类别是无用的,有的甚至对不利于进行查询推荐。为了解决这个问题,利用Wikipedia类别的层次关系,本文中把一些“分类”类别转化为Wikipedia类别中的高层类别。本文通过改进Labeled Latent Dirichlet Allocation来处理高层类别比起原来分类更加不够具体的情况。　　 2.其次研究了在查询反馈和过滤中提出关键词的方法。本文假定关键词存在两种类型的关键词,它们在用户表达信息需求时的角色是不同的。第一类关键词与信息需求直接相关的。而第二类关键词一些领域下功能性关键词。提出利用查询反馈中生成的第一类关键词来提高整体的检索性能,而使用第二种关键词进行过滤的方法来进一步提高检索精度。　　 3.受到nDCG思想的启发,本文,提出一种权衡时间因素和排序得分的策略。本策略是在按照时间排序情况下,考虑排序得分的影响。其思想是通过隐藏一部分因为排序得分较低而排在返回结果前面的网页,从而在保留按时间排序的情况下,进一步提高检索精度。经过初步的实验数据表明,在按照时间排序的情况下,在指标MAP,P@N和nDCG上有较好的提高。

其他文献

构件模型的精化理论研究

基于构件的模型驱动开发被认为是实现软件复用和降低系统开发复杂度的重要技术之一，并已在工业界得到广泛应用。其基本思想是：根据不同的视角和关注点将系统分解为不同模型，然后

学位

构件模型精化理论语义基础模型驱动开发

多触摸桌面对象跟踪与交互技术研究

基于计算机视觉的多点触摸交互桌面提供了一种自然的交互手段,成为国内外研究机构的研究热点。基于计算机视觉的多点触摸交互桌面环境噪声干扰严重,多个触摸手指之间相互遮挡

学位

计算机视觉多点触摸桌面触摸手指检测触摸手指跟踪手势交互技术

关联规则挖掘及其在化工生产中的应用

化工生产中产生大量的过程数据,这些数据蕴含着生产优化、质量管理、过程控制的相关信息。已有的关联规则挖掘应用领域涉及到商业、金融、电信、零售等行业,这些行业的过程以

学位

化学工业数据分析关联规则挖掘

基于失真预测的无线网络视频传输关键技术研究

随着无线技术的发展和硬件成本降低，基于移动无线网络的视频应用得到越来越多的普及。传统面向数据传输的网络协议已经不能满足视频传输需要。一方面，视频数据具有特殊的编码结

学位

失真预测视频传输无线网络移动无线网络

基于极限学习机的XML文档分类的研究与实现

XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行

学位

XML分类极限学习机投票机制

DDR3内存控制器的物理设计和实现

随着集成电路工艺进入深亚微米,芯片频率不断提升,中央处理器(CPU)对数据的访存成为性能瓶颈。通过采用DDR(Double Data,Rate)内存技术可以大幅提高数据访存速率和带宽,但是D

学位

DDR3内存控制器高速特性物理设计复杂时序实现流程

基于CPU-GPU异构系统的并行应用优化研究

目前，异构体系结构是构建大规模并行计算系统的重要手段。使用GPU加速卡来构建异构系统成为一种主流的方式。而不论从应用的角度，还是从体系结构的角度看，如何充分有效的利用异

学位

冷冻电镜三维重构异构系统双精度矩阵乘法流水线优化算法数据传输并行性

社会计算中的组织行为建模研究

近年来,国际国内各种社会组织的数量及活跃度快速增长,对各国的政治、经济等领域的影响日益加深。因此,迫切需要研究各种社会组织的行为规律,为政府等利益主体的科学决策提供

学位

组织行为建模组织行为预测可操作行为规则代价敏感学习类不平衡问题

基于医疗知识库的可视化诊疗服务技术

由于海量医学信息的快速增长以及信息来源的多样性、组织的无序性等原因,传统的医学信息的组织方式很难满足人们对于信息服务的需求。医学知识库对医学领域的各种知识进行分

学位

医学知识库可视化诊疗服务可视化推理人机交互

云计算环境下虚拟机的安全分发和快速部署技术研究

与传统的资源管理方式相比，虚拟化技术给系统资源的管理带来了很大的优势。通过虚拟机的服务和资源封装作用，一方面可以快速有效的整合服务和部署应用，提高资源管理的自动化程度

学位

计算机网络云计算系统网络安全软件工具

引入WiKi知识库的历史网页推荐性检索系统的研究与实现

其他学术论文