基于上下文平均互信息的问句查询扩展模型

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户：wahuhihi

【摘要】

：

信息检索中存在用词歧义的问题,在中文自然语言查询处理中,表达差异问题更加突出.提出了一种基于上下文互信息的问句查询扩展模型,模型首先对训练集文档中的词或词组进行相关

【作者】

：

邵兵关毅王强王晓龙任瑞春

【机构】

：

哈尔滨工业大学计算机科学与技术学院(哈尔滨)大连海事大学数理系(大连)

【出处】

：

第二届全国学生计算语言学研讨会

【发表日期】

：

2004年8期

【关键词】

：

自然语言检索查询扩展信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索中存在用词歧义的问题,在中文自然语言查询处理中,表达差异问题更加突出.提出了一种基于上下文互信息的问句查询扩展模型,模型首先对训练集文档中的词或词组进行相关分析,计算每对词或词组间的互信息,然后于利用中文语义网与同义词资源进行中文信息检索的查询扩展.实验结果表明,该方法适宜改进Web上的信息检索,相对一般的查询扩展算法可以大幅度提高各项指标.

其他文献

HMM与自动规则提取相结合的中文命名实体识别

本文实现的中文命名实体识别系统采用了隐马尔可夫模型(Hidden Markov Model,HMM)与自动规则提取相结合的方法.整个识别过程可以分为两个步骤,首先使用HMM识别,然后再利用自

会议

中文命名实体隐马尔可夫模型自动提取自动识别

CC-Link现场总线的通信初始化方法及应用

目前,CC-Link现场总线在工控领域应用比较广泛.在它的应用过程中,最重要的工作是进行控制系统的通信初始化注册.CC-Link通信初始化注册方法有两种,一种是编程,即编制顺控程序

会议

现场总线通信初始化注册网络参数控制系统

布氏硬度试验压痕直径的图像测量及实现

简述了压痕尺寸图像测量系统的构成.在分析压痕图像特点的基础上,提出了一种实用的图像分割算法,实现了对压痕尺寸的精确测量.实验证明,该算法满足对布氏硬度计压痕直径的测

会议

布氏硬度试验压痕图像测量图像分割压痕图像布氏硬度计

领域知识库的构建机制

在进行文本的主题分析和文本的内容分析的研究中,"领域知识"是不可或缺的基础知识.而"领域知识库"是系统的管理"领域知识"的有效途径.于是,构建领域知识库的研究工作具有极其

会议

领域知识知识表示本体论领域知识库人工智能

基于WordNet的英语词语相似度计算

本文主要介绍一种基于WordNet的英语词语相似度的实现方法,我们从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面:(1)WordNet的同义词词

会议

WordNet词语相似度英语词语自然语言处理中文信息处理

基于决策树的中文名词短语指代消解

本文采用决策树学习方法来完成中文名词短语的指代消解.在人民日报标注语料的基础上进行名词短语识别,并构建候选指代名词短语对的特征向量,然后采用C5.0决策树算法训练得到

会议

指代消解名词短语决策树自然语言处理机器学习

一种新的基于规则的多音字自动注音方法

本文统计了大量正确标音的语料,结果表明220个多音字的出现频度占总频度的99﹪以上.本文针对这220个多音字,提出了一种新的基于规则的多音字自动注音的方法.该方法首先对语句中

会议

字音转换多音字韵律短语韵律功能词性特征提取

新词语的研究及其在对外汉语教学中的应用

随着社会的发展变化,记录新事物、新概念、新认识的新词语的数量正与日俱增,在对新词语进行定量分析的基础上,通过描述新词语在产生途径、应用领域、构成方式、词性、音节等

会议

新词语分布特点汉语教学汉语词汇

文本主题识别研究及应用

文本的主题识别是TDT研究计划的核心任务之一.本文研究了文本主题识别的主要算法,并分析了采用不同的文本特征包括Unigram和NGram可以改善算法的性能.同时,针对现有搜索流程

会议

主题识别文本聚类信息检索

基于一元语法模型的中文话题追踪

话题追踪(topic tracking)的目的是监控新闻故事流识别出与预先给定几个新闻故事表述的话题相关的后继故事.本文采用一元语法模型对中文故事进行话题追踪,并分析了影响中文话

会议

话题追踪一元语法语料中文话题信息抽取

基于上下文平均互信息的问句查询扩展模型

其他学术论文