【摘 要】
:
信息检索中存在用词歧义的问题,在中文自然语言查询处理中,表达差异问题更加突出.提出了一种基于上下文互信息的问句查询扩展模型,模型首先对训练集文档中的词或词组进行相关
【机 构】
:
哈尔滨工业大学计算机科学与技术学院(哈尔滨)大连海事大学数理系(大连)
论文部分内容阅读
信息检索中存在用词歧义的问题,在中文自然语言查询处理中,表达差异问题更加突出.提出了一种基于上下文互信息的问句查询扩展模型,模型首先对训练集文档中的词或词组进行相关分析,计算每对词或词组间的互信息,然后于利用中文语义网与同义词资源进行中文信息检索的查询扩展.实验结果表明,该方法适宜改进Web上的信息检索,相对一般的查询扩展算法可以大幅度提高各项指标.
其他文献
本文实现的中文命名实体识别系统采用了隐马尔可夫模型(Hidden Markov Model,HMM)与自动规则提取相结合的方法.整个识别过程可以分为两个步骤,首先使用HMM识别,然后再利用自
目前,CC-Link现场总线在工控领域应用比较广泛.在它的应用过程中,最重要的工作是进行控制系统的通信初始化注册.CC-Link通信初始化注册方法有两种,一种是编程,即编制顺控程序
简述了压痕尺寸图像测量系统的构成.在分析压痕图像特点的基础上,提出了一种实用的图像分割算法,实现了对压痕尺寸的精确测量.实验证明,该算法满足对布氏硬度计压痕直径的测
在进行文本的主题分析和文本的内容分析的研究中,"领域知识"是不可或缺的基础知识.而"领域知识库"是系统的管理"领域知识"的有效途径.于是,构建领域知识库的研究工作具有极其
本文主要介绍一种基于WordNet的英语词语相似度的实现方法,我们从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面:(1)WordNet的同义词词
本文采用决策树学习方法来完成中文名词短语的指代消解.在人民日报标注语料的基础上进行名词短语识别,并构建候选指代名词短语对的特征向量,然后采用C5.0决策树算法训练得到
本文统计了大量正确标音的语料,结果表明220个多音字的出现频度占总频度的99﹪以上.本文针对这220个多音字,提出了一种新的基于规则的多音字自动注音的方法.该方法首先对语句中
随着社会的发展变化,记录新事物、新概念、新认识的新词语的数量正与日俱增,在对新词语进行定量分析的基础上,通过描述新词语在产生途径、应用领域、构成方式、词性、音节等
文本的主题识别是TDT研究计划的核心任务之一.本文研究了文本主题识别的主要算法,并分析了采用不同的文本特征包括Unigram和NGram可以改善算法的性能.同时,针对现有搜索流程
话题追踪(topic tracking)的目的是监控新闻故事流识别出与预先给定几个新闻故事表述的话题相关的后继故事.本文采用一元语法模型对中文故事进行话题追踪,并分析了影响中文话