基于语言模型的句子检索技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xjl982050
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是近几年来发展迅速的计算机应用学科。句子检索是细粒度的信息检索,在自动问答、文档文摘、机器翻译等领域有着广泛的应用。本文的课题来源于“双语例句检索系统”中句子检索技术的研究。句子检索的主要难点是信息量少、缺少上下文,这使得在查询与句子之间的“词不匹配”问题导致检索失败的概率比普通文档检索的概率大。这要求句子检索技术必须充分利用已有的信息,如词序信息、句子结构,并且深入“理解”句子。本文研究侧重解决部分句子检索中的“词不匹配”问题,以提高检索性能。本文的研究从两方面入手,一是从查询处理角度,二是从句子检索模型角度。查询是用户信息需求的表示。用户输入的查询存在拼写错误、同义词使用不当、单词形态错误等问题,这些都会导致查询中的“词不匹配”问题。本文第二章研究了基于语言模型的“查询修正模型”,以统一模型处理多种查询变换,并以统计语言模型评估变换结果,求得最优的“修正查询”。查询修正能够部分解决“词不匹配”问题,对于提高句子检索系统有重要意义。本文第三章先研究了基于词义语言模型的检索模型,作为后续句子检索模型研究的基础。词义语言模型是在统计语言模型基础上引入词义表示的统计模型,尝试以统计方法解决传统语言模型中“词不匹配”的问题。在句子检索方面,本文第四章采用了线性判别模型作为句子检索的计算模型。特征选用一元语言模型、基于词义的编辑距离和词义语言模型。线性判别模型模型的优点在于,对查询和文档的分布假设比传统基于隐马尔可夫的语言模型要弱,以系统的准确率MAP作为优化目标,有利于系统最优化。而且判别模型的参数可以根据用户的反馈进行调整,适合今后个性化检索的应用。本文第五章介绍句子检索技术应用系统的结构设计、先期处理和实现等情况。随着信息处理技术的发展,以句子检索为代表的细粒度检索在信息处理的应用中发挥越来越重要的作用,研究句子检索对于促进自然语言处理技术在信息检索中的应用也有其重要价值。
其他文献
三维建模是计算机视觉和计算机图形学领域中的一个基本问题,人脸借助其特有的普遍性和易用性成为众多先进三维建模算法的实验平台。但是由于人脸的复杂性、易变形,建立逼真的
随着网络技术的迅速发展,Internet上不断涌现出如IP电话、视频会议、远程教学等多媒体业务,网络环境呈现前所未有的多元化、复杂化。原有的尽力而为的服务已无法满足各种应用
Blog作为一种全新的网络信息发布模式,已经深入到每一个网络用户的生活中。它提供了一种个人信息的发布、交流和沟通的平台。Blog的迅速发展已经构成了一个巨大的网络资源,如
国际航空航天技术中逐步采用AOS数据标准,使得关于AOS体制标准的研究变得越来越重要,由于AOS数据传输系统的基础设备研究设计开发缓慢,极大地阻碍了对AOS系统进一步的研究。
远程医疗系统能充分利用国内、国际的医疗资源帮助我国偏远地区病人得到及时医治,能在紧急医疗救助时帮助患者得到最快的治疗,同时在某些特殊情况下(比如SARS)能帮助患者从医院
验证最终设计的正确性,对设计复杂芯片起到了关键性的保证作用。有资料显示,目前芯片一次投片成功率只有35%左右,造成重复投片的主要原因就是验证不够充分。随着设计规模不断增大
无线传感器网络通常包含大量的自组织、多跳无线网络的分布式节点。由于其具有组网快捷、灵活,且不受有线网络约束的优点,因而可应用于紧急搜索、灾难救助、环境监测等领域,具有
目前,对节能和室内环境质量的关注推动了对暖通空调和建筑物系统进行多方面的广泛研究。本文主要研究空调系统的仿真及一定温度要求下的最小能耗优化控制,主要内容如下:
随着信息技术的快速发展,嵌入式技术的电子产品已经走进人们的生活,而且正在逐渐改变着传统的工业生产和服务方式,成为业界关注的焦点。SOPC是PLD和ASIC技术融合的结果,它作为一
随着教育改革的不断深化和信息技术的飞速发展,数字校园建设已成为高校现代化建设的核心内容,并逐步成为高校综合实力和现代化水平的重要标志之一。安全的数字校园系统必将为