引入WiKi知识库的历史网页推荐性检索系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jiangfan520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按照时间排序。当检索结果按时间排序时,可能会导致低相关度的网页排在返回结果前面的问题。这是导致用户对检索结果不满意的一种原因。导致用户不满意的其它原因还包括查询词过短和歧义。本文提出引入Wikipedia数据集作为外部数据源,来减少用户的不满意度。在Wikipedia的辅助下,进行基于Wikipedia类别的相关推荐能够减少查询词出现歧义的情况。借助Wikipedia,进行查询反馈和过滤来处理由原来简短的查询词所带来一些的问题。本文研究并设计了在查询推荐,查询反馈以及过滤中的相关算法。最后提出了一种新的排序策略,考虑了按时间排序和相似得分两种因素。   更具体来说有以下几个方面:   1.首先本文提出基于Wikipedia“分类”域的查询推荐。由于Wikipedia分类不是经过严格定义的关系,不少”分类”类别是无用的,有的甚至对不利于进行查询推荐。为了解决这个问题,利用Wikipedia类别的层次关系,本文中把一些“分类”类别转化为Wikipedia类别中的高层类别。本文通过改进Labeled Latent Dirichlet Allocation来处理高层类别比起原来分类更加不够具体的情况。   2.其次研究了在查询反馈和过滤中提出关键词的方法。本文假定关键词存在两种类型的关键词,它们在用户表达信息需求时的角色是不同的。第一类关键词与信息需求直接相关的。而第二类关键词一些领域下功能性关键词。提出利用查询反馈中生成的第一类关键词来提高整体的检索性能,而使用第二种关键词进行过滤的方法来进一步提高检索精度。   3.受到nDCG思想的启发,本文,提出一种权衡时间因素和排序得分的策略。本策略是在按照时间排序情况下,考虑排序得分的影响。其思想是通过隐藏一部分因为排序得分较低而排在返回结果前面的网页,从而在保留按时间排序的情况下,进一步提高检索精度。经过初步的实验数据表明,在按照时间排序的情况下,在指标MAP,P@N和nDCG上有较好的提高。
其他文献
基于构件的模型驱动开发被认为是实现软件复用和降低系统开发复杂度的重要技术之一,并已在工业界得到广泛应用。其基本思想是:根据不同的视角和关注点将系统分解为不同模型,然后
基于计算机视觉的多点触摸交互桌面提供了一种自然的交互手段,成为国内外研究机构的研究热点。基于计算机视觉的多点触摸交互桌面环境噪声干扰严重,多个触摸手指之间相互遮挡
化工生产中产生大量的过程数据,这些数据蕴含着生产优化、质量管理、过程控制的相关信息。已有的关联规则挖掘应用领域涉及到商业、金融、电信、零售等行业,这些行业的过程以
随着无线技术的发展和硬件成本降低,基于移动无线网络的视频应用得到越来越多的普及。传统面向数据传输的网络协议已经不能满足视频传输需要。一方面,视频数据具有特殊的编码结
XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行
随着集成电路工艺进入深亚微米,芯片频率不断提升,中央处理器(CPU)对数据的访存成为性能瓶颈。通过采用DDR(Double Data,Rate)内存技术可以大幅提高数据访存速率和带宽,但是D
目前,异构体系结构是构建大规模并行计算系统的重要手段。使用GPU加速卡来构建异构系统成为一种主流的方式。而不论从应用的角度,还是从体系结构的角度看,如何充分有效的利用异
近年来,国际国内各种社会组织的数量及活跃度快速增长,对各国的政治、经济等领域的影响日益加深。因此,迫切需要研究各种社会组织的行为规律,为政府等利益主体的科学决策提供
由于海量医学信息的快速增长以及信息来源的多样性、组织的无序性等原因,传统的医学信息的组织方式很难满足人们对于信息服务的需求。医学知识库对医学领域的各种知识进行分
与传统的资源管理方式相比,虚拟化技术给系统资源的管理带来了很大的优势。通过虚拟机的服务和资源封装作用,一方面可以快速有效的整合服务和部署应用,提高资源管理的自动化程度