论文部分内容阅读
在信息检索系统中,由于用户查询语句过短而导致的词不匹配、信息迷向和信息过载等问题,成为制约检索质量的主要因素之一。实践表明,根据一定的策略为原查询语句附加更多的关键词,然后把新构造的查询语句用于检索,可以有效改善检索结果的查准率和查全率,提高检索质量,这就是查询扩展。基于词典的查询扩展方法是一种行之有效的查询扩展方法,该方法以同义词典作为扩展源,根据原查询关键词给出与之相关的扩展词。但是,由于大数据量的词典一般以机器的方式生成,给出的扩展词往往含有噪音,这些不合理的噪音词会降低查询扩展的性能。为此,本文主要研究和改进了基于词典的查询扩展方法,以达到降噪目的。
本文应用统计语言模型,提出一种度量原查询与扩展词之间相关度的方法,把原查询与扩展词的相关度作为筛选扩展词的依据,并建立一种基于词典与日志挖掘的查询扩展处理模型。本文的研究内容主要包括以下三点:一、以二元统计语言模型为基础,建立扩展相关度计算模型,提出一种从候选扩展词中筛选合适扩展词的方法,降低查询扩展的噪音;二、利用查询日志构建二元统计语言模型,为了解决数据稀疏问题,改进了基于Good-Turing估计的数据平滑策略;三、为了使扩展相关度的计算更加准确,利用从查询日志统计得到的词频信息,提出基于似然比的二元组词间关联度计算方法。
实验表明,与原来基于词典的查询扩展方法比较,利用本文提出的查询扩展方法,试验系统的检索结果在查准率和查全率方面均有所提高。