基于词语搭配关系的查询扩展方法

来源 :第四届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:gsxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索领域,针对相关文档和用户查询之间的词不匹配问题,相关反馈和查询扩展可以有效提高检索性能.近来学者们将单词之问的关联关系融入到统计语言模型中,但都是利用WordNet或共现关系进行查询扩展,前者效果不明显而后者易引入很多"噪音".本文提出一种基于局部词语搭配关系的查询扩展方法,即从前N篇相关文档中反馈具有句法和语义关系的搭配单词加入原查询.在TREC数据集的试验结果表明:本文提出的基于词语搭配关系的查询扩展方法不仅比传统语言模型方法性能有很大的提高.而且也优于目前流行的查询扩展方法.
其他文献
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用.通常所说的关键词实际上有相当一部分是关键的短语,而这部分关键词的提取是十分困难的问题.本文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词短语提取,设计了一种基于分离模型的关键词提取算法.并以该算法为基础.针对关键单词提取和关键词短语提取这两个问题设计了不同的语言学知识特征,提高了提取的准确性.实验表明基于语言学
本文在研究了多种文本分类算法基础上,提出了一种新颖的基于奖励机制的文本分类算法SAM.这种算法借鉴了基于语义知识的概念层次网络(HNC)模型,考虑了词语在不同句类和句子结构中的影响力、词语的类内分布和类间分布对识别特征词的不同影响,提出奖励机制的概念.另外,我们使用了基于字节编码的多模式匹配算法BCAC,使得文本匹配的计算过程简单而高效.最后,我们将该算法与经典文本分类算法如KNN、SVM等作了比
本文提出了一种基于约束惩罚的群体智能文本聚类算法PCSI,该聚类算法不必穷尽搜索样本集,利用粒子群算法的特性在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.该算法约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反分情况进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高
在图像分类和自动标注系统中,多例学习(MIL)是研究的热点.分别在基于EM算法和启发式迭代优化算法的框架下,提出了6种非监督的多例聚类算法,并对web图像进行聚类以分析用户的搜索兴趣.一幅图像含有若干个区域,每个区域可被看作为一个样例,属于同一个图像的区域组成一个包.这样如何理解图像语义内容的问题即可转化为多例学习.在多例学习的经典数据集MUSK和web图像集上的比较实验表明,在不同类别数目下本文
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训
潜在语义索引被广泛应用于信息检索、文本分类、自动问答系统等领域中.潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上.在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递天系获得.本文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息.本文采用文档频率对文
文档聚类是实现话题检测与跟踪的重要方法.传统的硬聚类算法在处理边界数据时存在很大缺陷,影响话题检测的效果.针对这一问题,本文提出一种改进的基于容错粗糙集的聚类方法,利用某些文档特征项协同出现,构造特征项容错关系,扩充特征项的描述能力,最后用特征项容错类描述文档之间的相似关系,实现了话题检测与跟踪的过程.实验证明,该方法能够有效的处理边界数据,提高文本聚类的效果.
拒绝服务攻击(Denial of Service,DoS)和分布式拒绝服务(Distributed Denial of Service Artack DDoS)攻击对运行于Interact上的各种应用造成了很大的威胁.它通过消耗目标主机带宽或者目标主机各种资源而达到迫使目标主机无法向正常用户提供服务的目的.本文首先对传统的DOS、DDoS攻击方法及防御策略进行了简述总结,随后通过分析流媒体服务自身
互联网的发展为人们共享信息提供了前所未有的条件,然而这也为科技论文抄袭行为提供了便利,于是判定科技论文的原创性变得尤为重要.针对这一问题,本文提出并实现了基于信息检索技术的中文科技论文的原创性检查系统.本文采用n元文法结构作为索引单元,以概率模型为检索模型,利用开源的Lemur Toolkit作为基础建立系统.实验结果表明,该方法行之有效.
双语术语相似度计算在跨语言信息检索等领域有重要的应用.目前双语术语相似度计算主要有基于统计和语言学两类方法,其中,本文针对语言学中基于词典的术语相似度计算效果受词典覆盖面影响较大的缺点,提出基于词典的语义预测扩展相似度算法,并利用动态规划求解多对双语术语的相似度,从而选择正确的双语术语.实验结果显示该算法的准确率达88%,召回率达82%.