论文部分内容阅读
传统的英文信息检索中,通常以由空格分隔的英文单词为单位建立索引。由于中文词语间没有明显的分隔符,因此,索引单位的确定是中文信息检索中非常重要的一步。中文信息检索的性能因索引单元选择的不同而不同。一般而言,粒度大的索引单元会提高信息检索的准确率而降低召回率;相反,粒度小的索引单元会提高检索系统的召回率而降低准确率。
本文介绍了中文信息检索中常用的几种索引方案,即基于字的索引单位、基于词的索引单位和基于NGram的索引单位,以及已有的融合各种索引单位的方法。分析了各种索引的优缺点,在各种检索模型上对采用不同索引单位时的检索性能进行了比较。实验结果表明,单独使用某一种索引单位时与其它索引单位相比并没有明显的优势,不同的索引单位在不同的检索模型下,检索性能比较的结果不一致。可见,无论哪种索引策略,在单独使用时,都不能明显的提高中文检索系统的性能。融合不同粒度索引单位的检索系统,可以提高中文信息检索的性能。已有的融合各种不同粒度索引单位的中文信息检索的方案大致可以分为两类,一类是对利用不同粒度索引单位进行检索得到的结果进行融合,另一类是在对文档和查询进行切分时,利用不同的切分方法得到粒度不同的切分结果,将这些不同粒度的切分结果进行融合。这两种方法,无论哪种方法为了获得不同粒度的切分粒度,都需要对同一个语句使用不同的切分方法进行多次切分,降低了检索的效率。为了克服多次切分的缺点,本文作者提出了层次化的切分方法,它可以一次得到各种粒度不同的索引单位。在本文作者的层次化切分方法中,主要利用句中每相邻两个字的字间结合紧密度的排序关系,由结合紧密度高至紧密度低的顺序依次切分,最终得到一颗切分树的结构,越靠近树根的节点,分词结果的粒度越大。在计算相邻两个字的紧密度时,分别使用了最大熵模型和RankingSVM模型。其中基于Ranking SVM模型实现的方法,在对训练集进行标注时,将两类标签转化为三类标签,除了已有的“切分”和“不切分”两类标签外,对于某些难以决定是否切分的短语,引入了“可切分可不切分”的标签,解决了由于中文词语定义不一致而造成的标注方案难以确定的问题。在将层次化分词方法用于中文信息检索时,为了避免索引空间过大的问题,对查询采用层次化分词方法,对文档采用字建立索引,并利用位置信息获得字串频率等统计量。在实验中,首先验证了层次化分词方法的性能,实验结果表明,两种实现方法得到的分词结果的准确率都在90%以上,并且能较好的避免切分歧义的问题。在将切分得到的各种粒度的索引单位融入到检索模型中,运用同样检索系统下,在TREC和NTCIR语料上,和信息检索中常用的字索引方法、Bigram索引方法、分词中常用的最大匹配法及ICTCLAS相比,检索系统的平均准确率都有所提高。