基于词典与日志挖掘的查询扩展问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:killer_lww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索系统中,由于用户查询语句过短而导致的词不匹配、信息迷向和信息过载等问题,成为制约检索质量的主要因素之一。实践表明,根据一定的策略为原查询语句附加更多的关键词,然后把新构造的查询语句用于检索,可以有效改善检索结果的查准率和查全率,提高检索质量,这就是查询扩展。基于词典的查询扩展方法是一种行之有效的查询扩展方法,该方法以同义词典作为扩展源,根据原查询关键词给出与之相关的扩展词。但是,由于大数据量的词典一般以机器的方式生成,给出的扩展词往往含有噪音,这些不合理的噪音词会降低查询扩展的性能。为此,本文主要研究和改进了基于词典的查询扩展方法,以达到降噪目的。   本文应用统计语言模型,提出一种度量原查询与扩展词之间相关度的方法,把原查询与扩展词的相关度作为筛选扩展词的依据,并建立一种基于词典与日志挖掘的查询扩展处理模型。本文的研究内容主要包括以下三点:一、以二元统计语言模型为基础,建立扩展相关度计算模型,提出一种从候选扩展词中筛选合适扩展词的方法,降低查询扩展的噪音;二、利用查询日志构建二元统计语言模型,为了解决数据稀疏问题,改进了基于Good-Turing估计的数据平滑策略;三、为了使扩展相关度的计算更加准确,利用从查询日志统计得到的词频信息,提出基于似然比的二元组词间关联度计算方法。   实验表明,与原来基于词典的查询扩展方法比较,利用本文提出的查询扩展方法,试验系统的检索结果在查准率和查全率方面均有所提高。
其他文献
普适计算的核心是嵌入式系统,在普适计算的环境下,各种嵌入式系统应用正面临着海量数据处理的挑战,特别是在工业现场数据采集系统中,这种挑战主要是如何保证数据处理的高效性、安
随着社会信息化建设的发展,企业和政府部门的大量数据转移到数据库系统之中,数据库安全成为了人们普遍关注的问题。权限管理是数据库安全的基础,只有将数据库中的权限进行合
随着网络的大量普及,存储技术、多媒体技术、数据库技术快速发展,人们对图像的应用要求也日益增长,图像中包含大量的语义信息,图像语义标注是所有图像语义研究的基础。目前,
随着信息技术的快速发展,信息数据量的增长越来越快。磁盘作为数据存储的容器,其容量越来越大,可是CPU和I/O之间的性能差距不断扩大。磁盘数据传输技术的发展速度远远落后于CPU
随着数码设备的普及和Adobe Photoshop,ACD-See等具有强大功能的图像处理软件的广泛应用,将数字图像进行变换、更改变得愈发容易,而对于通过不正当的手段篡改过的图像也愈发难以
随着互联网的发展和普及,垃圾邮件问题日益严重。垃圾邮件的广泛传播不仅加重了网络传输的负担,而且还给用户带来很多不便和危害。研究反垃圾邮件技术,有效地过滤和防范垃圾邮件
随着统计技术的发展,大规模的双语语料库是机器翻译和跨语言处理中不可缺少的基本资源。平行双语语料库提供了两种相应语言的丰富的匹配信息。通常情况下,获得高质量和大规模
计算场景中数量庞大的各种对象间的距离以判断交互与否是游戏系统中兴趣管理功能的一类主要计算工作。Kd-tree作为一种最近邻查找工具已被应用于游戏空间的分割,在一定程度上
我国大多数注水开发油田采出程度及综合含水指数均已很高。油井大规模采用机械采油方式使得井内流体压力低于饱和压力,产生原油脱气现象,造成油井内油气水三相流动状态。在油田
哼唱搜索(Query by Humming)是一种基于内容的音乐搜索技术,它是涉及信号处理和模式识别等领域的综合研究课题。与传统的基于文本的搜索不同,哼唱搜索为人们提供了一种很自然的