融合多粒度索引单位的中文信息检索研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:apple90317
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的英文信息检索中,通常以由空格分隔的英文单词为单位建立索引。由于中文词语间没有明显的分隔符,因此,索引单位的确定是中文信息检索中非常重要的一步。中文信息检索的性能因索引单元选择的不同而不同。一般而言,粒度大的索引单元会提高信息检索的准确率而降低召回率;相反,粒度小的索引单元会提高检索系统的召回率而降低准确率。   本文介绍了中文信息检索中常用的几种索引方案,即基于字的索引单位、基于词的索引单位和基于NGram的索引单位,以及已有的融合各种索引单位的方法。分析了各种索引的优缺点,在各种检索模型上对采用不同索引单位时的检索性能进行了比较。实验结果表明,单独使用某一种索引单位时与其它索引单位相比并没有明显的优势,不同的索引单位在不同的检索模型下,检索性能比较的结果不一致。可见,无论哪种索引策略,在单独使用时,都不能明显的提高中文检索系统的性能。融合不同粒度索引单位的检索系统,可以提高中文信息检索的性能。已有的融合各种不同粒度索引单位的中文信息检索的方案大致可以分为两类,一类是对利用不同粒度索引单位进行检索得到的结果进行融合,另一类是在对文档和查询进行切分时,利用不同的切分方法得到粒度不同的切分结果,将这些不同粒度的切分结果进行融合。这两种方法,无论哪种方法为了获得不同粒度的切分粒度,都需要对同一个语句使用不同的切分方法进行多次切分,降低了检索的效率。为了克服多次切分的缺点,本文作者提出了层次化的切分方法,它可以一次得到各种粒度不同的索引单位。在本文作者的层次化切分方法中,主要利用句中每相邻两个字的字间结合紧密度的排序关系,由结合紧密度高至紧密度低的顺序依次切分,最终得到一颗切分树的结构,越靠近树根的节点,分词结果的粒度越大。在计算相邻两个字的紧密度时,分别使用了最大熵模型和RankingSVM模型。其中基于Ranking SVM模型实现的方法,在对训练集进行标注时,将两类标签转化为三类标签,除了已有的“切分”和“不切分”两类标签外,对于某些难以决定是否切分的短语,引入了“可切分可不切分”的标签,解决了由于中文词语定义不一致而造成的标注方案难以确定的问题。在将层次化分词方法用于中文信息检索时,为了避免索引空间过大的问题,对查询采用层次化分词方法,对文档采用字建立索引,并利用位置信息获得字串频率等统计量。在实验中,首先验证了层次化分词方法的性能,实验结果表明,两种实现方法得到的分词结果的准确率都在90%以上,并且能较好的避免切分歧义的问题。在将切分得到的各种粒度的索引单位融入到检索模型中,运用同样检索系统下,在TREC和NTCIR语料上,和信息检索中常用的字索引方法、Bigram索引方法、分词中常用的最大匹配法及ICTCLAS相比,检索系统的平均准确率都有所提高。
其他文献
近年来,随着计算机网络应用范围的扩展,网络流量迅速增加,网络开始变得更加拥挤,这严重影响了网络的传输速率。一方面用户要求通信网络能提供高效的端到端服务质量的支持,另
随着嵌入式技术的发展,各种嵌入式数字电子设备在居民生活中得到了普及和广泛应用,如数字音频、数字电视机顶盒、数字电视等,对应的嵌入式软件也被大量的开发。嵌入式软件测试工
随着通信技术的飞速发展,网络规模也越来越大,传统的依靠手工来管理网络已经成为历史。网络拓扑结构是现在网络自动化管理的前提和基础,鉴于网络拓扑结构具有一定的动态性,要想通
随着Internet和WWW的流行,Browser/Server(B/S)系统设计和开发技术已经被越来越多的领域所采用,已成为现今系统的主要开发方法。一般的B/S系统都具有多层体系结构,同时简化了客
WEB搜索系统的基本任务,是找出满足用户信息需求的文档。然而,用户提交的查询往往很短,表达能力有限,因此影响了检索结果的精度。查询重构(又称查询扩展)技术是解决该问题的重要
图像融合是通过综合多幅图像数据互补得到新的一幅图像,在这幅图像中能反应多重原始图像中的信息,得到探测目标的相对精确可靠的解译和相对完整一致的信息描述的过程。图像融合
随着Internet技术的发展,在网络上除了传输信息流外,还传输资金流,如何保障网上交易双方的资金安全,是网上交易活动的关键。这就要求在交易过程中,需要保证交易双方敏感信息的安全
显著区域的检测是图像处理、模式识别、计算机视觉及认知科学等领域中近年来的研究热点之一,在理论研究和实际应用中都有重要意义。本文深入研究了当前国内外主要的显著区域检
网络流量测量是研究网络行为、进行网络规划和网络管理的基础,网络流量的采集与分析是网络流量测量的核心技术。随着主干网链路速率由1000Mbps提升到10Gbps,链路速率的增长已远
通过对国内外子空间聚类的研究情况分析可知,已有的子空间聚类算法还存在如下问题:第一,面向数据流的子空间聚类算法较少;第二,在聚类过程中只考虑了数据流的衰减性;第三,现