论文部分内容阅读
对于搜索引擎来说,检索性能和检索质量是影响其发展至关重要的两个指标。本文的研究关注两者的权衡,即搜索引擎返回的网页是否能满足用户需求,同时又有较好的性能。现代搜索引擎会根据候选网页与查询的相关性进行打分,这个分数则影响了网页在结果列表的排名。为了使检索更有效,一种直观的想法是,在处理包含多个查询词的查询时,认为各个查询词在文档中出现的位置越邻近,这个文档跟此查询越相关。 但是本文的实验发现并不是所有的查询都能受益于位置因素,这与其他学者的观察相一致。而且,从性能方面考虑,加入邻近词因素对系统性能提出了新的挑战。因为邻近词因素所依赖的位置索引是普通索引的3~5倍。这将需要耗费大量系统I/O,其计算也相当复杂,因此,为了提升检索质量所引起的性能损失是可观的。所以本文提出了选择性邻近词分数排序算法思想,找到加入TP分数能带来的质量提升上限,并探索通过机器学习分类算法区分受益/不受益于位置因素的查询。 我们采用了三种最广泛使用的邻近词分数计算方法:按最短距离的对数形式计算、按马尔科夫随机场构建的词项依赖模型计算、按所有词对词频对应的BM25框架计算,实验结果表明通过这些方法计算的邻近词分数都不能使全部的查询检索结果变优。文中对每一种算分方式独立处理,根据各个查询的检索结果质量进行查询标记,对整个查询集提取特征,并划分训练集和测试集,建立BP神经网络模型,实现查询是否会受益于位置因素的预测。 实验结果表明,以全部查询都计算TP分数的方法为基准,通过选择性TP分数计算方法,系统整体的检索质量指标会有不同程度提升,而且进行TP分数计算的查询数量少于查询总数,所以选择性TP分数计算方法也会带来性能上的收益。