【摘 要】
:
本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略.在NLPR-IR信息检索系统上,以TRECRobutt任务提供的大规模标准文本库(528155篇文档,250个公开的
【机 构】
:
中科院自动化所模式识别国家重点实验室,北京,100080
论文部分内容阅读
本文提出了两种提高检索鲁棒性的方法:(1)词义熵权重计算公式;(2)两级处理策略.在NLPR-IR信息检索系统上,以TRECRobutt任务提供的大规模标准文本库(528155篇文档,250个公开的查询主题)为评测平台,检验了以上两个方法.实验表明,词义熵模型与当前常用的TF*IDF权重计算公式联合使用,能有效提高检索系统性能;而对两级处理策略,其也能有效地降低查询扩展中噪音对检索性能的影响.
其他文献
基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介
交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义.本文采用全切分方法,在4亿字人民日报语料
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系
本文根据现有对齐算法,提出了二次对齐思想,并重新修改了句子对齐评分规律,更好的把基于长度和基于词典的算法结合起来,同时优化了一些辅助算法,使计算效率和实用效果都达到
面向限定领域的特定任务翻译服务,在有限资源的掌上电脑(PersonalDigitalAssistant,PDA)上实现快速语音翻译这一实际问题,本文提出了一种基于suffixarrays数据结构的快速翻译
译文生成是任何机器翻译系统所要解决的重要问题之一,也是机器翻译的最终目的.从本质上来讲,不管采用何种翻译方法,译文生成都要完成两个任务:一是源语与目标语之间的句法结
在基于语料库的统计翻译方法中,基于短语的统计翻译与基于单个词的统计翻译相比可以更好地处理句中词语之间的关系,从而有效地提高机器翻译系统的性能.在基于短语的统计翻译
无谓语动词句(无动句)的理解和处理历来是汉语自然语言处理的一个难点,基于动词中心论的语言学理论对于无动句的描述和解释是非自足的.HNC理论定义了四组无特征语义块句类(无
日语依存关系解析是基于日语依存文法,确定句子中各个文节间的依存关系.为提高解析精度,提出一种基于NN-LSVM对大规模训练语料进行修剪的日语依存关系解析方法:使用LSVM和NN
本文介绍了近期在Web信息检索领域所进行的研究工作.首先,在自适应文本信息过滤研究中,采用了基于多次反馈的增量学习机制来构造过滤模型,并在模型自适应学习过程中引入特征