论文部分内容阅读
信息检索是近几年来发展迅速的计算机应用学科。句子检索是细粒度的信息检索,在自动问答、文档文摘、机器翻译等领域有着广泛的应用。本文的课题来源于“双语例句检索系统”中句子检索技术的研究。句子检索的主要难点是信息量少、缺少上下文,这使得在查询与句子之间的“词不匹配”问题导致检索失败的概率比普通文档检索的概率大。这要求句子检索技术必须充分利用已有的信息,如词序信息、句子结构,并且深入“理解”句子。本文研究侧重解决部分句子检索中的“词不匹配”问题,以提高检索性能。本文的研究从两方面入手,一是从查询处理角度,二是从句子检索模型角度。查询是用户信息需求的表示。用户输入的查询存在拼写错误、同义词使用不当、单词形态错误等问题,这些都会导致查询中的“词不匹配”问题。本文第二章研究了基于语言模型的“查询修正模型”,以统一模型处理多种查询变换,并以统计语言模型评估变换结果,求得最优的“修正查询”。查询修正能够部分解决“词不匹配”问题,对于提高句子检索系统有重要意义。本文第三章先研究了基于词义语言模型的检索模型,作为后续句子检索模型研究的基础。词义语言模型是在统计语言模型基础上引入词义表示的统计模型,尝试以统计方法解决传统语言模型中“词不匹配”的问题。在句子检索方面,本文第四章采用了线性判别模型作为句子检索的计算模型。特征选用一元语言模型、基于词义的编辑距离和词义语言模型。线性判别模型模型的优点在于,对查询和文档的分布假设比传统基于隐马尔可夫的语言模型要弱,以系统的准确率MAP作为优化目标,有利于系统最优化。而且判别模型的参数可以根据用户的反馈进行调整,适合今后个性化检索的应用。本文第五章介绍句子检索技术应用系统的结构设计、先期处理和实现等情况。随着信息处理技术的发展,以句子检索为代表的细粒度检索在信息处理的应用中发挥越来越重要的作用,研究句子检索对于促进自然语言处理技术在信息检索中的应用也有其重要价值。