论文部分内容阅读
本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按照时间排序。当检索结果按时间排序时,可能会导致低相关度的网页排在返回结果前面的问题。这是导致用户对检索结果不满意的一种原因。导致用户不满意的其它原因还包括查询词过短和歧义。本文提出引入Wikipedia数据集作为外部数据源,来减少用户的不满意度。在Wikipedia的辅助下,进行基于Wikipedia类别的相关推荐能够减少查询词出现歧义的情况。借助Wikipedia,进行查询反馈和过滤来处理由原来简短的查询词所带来一些的问题。本文研究并设计了在查询推荐,查询反馈以及过滤中的相关算法。最后提出了一种新的排序策略,考虑了按时间排序和相似得分两种因素。
更具体来说有以下几个方面:
1.首先本文提出基于Wikipedia“分类”域的查询推荐。由于Wikipedia分类不是经过严格定义的关系,不少”分类”类别是无用的,有的甚至对不利于进行查询推荐。为了解决这个问题,利用Wikipedia类别的层次关系,本文中把一些“分类”类别转化为Wikipedia类别中的高层类别。本文通过改进Labeled Latent Dirichlet Allocation来处理高层类别比起原来分类更加不够具体的情况。
2.其次研究了在查询反馈和过滤中提出关键词的方法。本文假定关键词存在两种类型的关键词,它们在用户表达信息需求时的角色是不同的。第一类关键词与信息需求直接相关的。而第二类关键词一些领域下功能性关键词。提出利用查询反馈中生成的第一类关键词来提高整体的检索性能,而使用第二种关键词进行过滤的方法来进一步提高检索精度。
3.受到nDCG思想的启发,本文,提出一种权衡时间因素和排序得分的策略。本策略是在按照时间排序情况下,考虑排序得分的影响。其思想是通过隐藏一部分因为排序得分较低而排在返回结果前面的网页,从而在保留按时间排序的情况下,进一步提高检索精度。经过初步的实验数据表明,在按照时间排序的情况下,在指标MAP,P@N和nDCG上有较好的提高。