选择性邻近词分数排序算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yayanorman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于搜索引擎来说,检索性能和检索质量是影响其发展至关重要的两个指标。本文的研究关注两者的权衡,即搜索引擎返回的网页是否能满足用户需求,同时又有较好的性能。现代搜索引擎会根据候选网页与查询的相关性进行打分,这个分数则影响了网页在结果列表的排名。为了使检索更有效,一种直观的想法是,在处理包含多个查询词的查询时,认为各个查询词在文档中出现的位置越邻近,这个文档跟此查询越相关。  但是本文的实验发现并不是所有的查询都能受益于位置因素,这与其他学者的观察相一致。而且,从性能方面考虑,加入邻近词因素对系统性能提出了新的挑战。因为邻近词因素所依赖的位置索引是普通索引的3~5倍。这将需要耗费大量系统I/O,其计算也相当复杂,因此,为了提升检索质量所引起的性能损失是可观的。所以本文提出了选择性邻近词分数排序算法思想,找到加入TP分数能带来的质量提升上限,并探索通过机器学习分类算法区分受益/不受益于位置因素的查询。  我们采用了三种最广泛使用的邻近词分数计算方法:按最短距离的对数形式计算、按马尔科夫随机场构建的词项依赖模型计算、按所有词对词频对应的BM25框架计算,实验结果表明通过这些方法计算的邻近词分数都不能使全部的查询检索结果变优。文中对每一种算分方式独立处理,根据各个查询的检索结果质量进行查询标记,对整个查询集提取特征,并划分训练集和测试集,建立BP神经网络模型,实现查询是否会受益于位置因素的预测。  实验结果表明,以全部查询都计算TP分数的方法为基准,通过选择性TP分数计算方法,系统整体的检索质量指标会有不同程度提升,而且进行TP分数计算的查询数量少于查询总数,所以选择性TP分数计算方法也会带来性能上的收益。
其他文献
∑△ADC(Sigma-Delta Analog-to-Digital Converter)作为一种高精度模数转换器被广泛应用在现代通信、医疗、便携式电子系统中。随着集成电路制造工艺向着深亚微米方向不断演
啤酒生产过程中,糖化过程有醪液的升温和保温过程,整个糖化工艺流程中有供水、糊化、糖化、过滤、暂存、煮沸、沉淀、冷却等环节;这样一个系统实现工艺流程自动控制是一个较
随着智能手机在人们日常生活中的逐渐普及,其在给人们带来便捷的同时,也出现了非常多的安全问题。并且由于智能手机涉及到许多个人隐私信息,因此一旦其出现安全问题,将直接威胁到
该文以6502电气集中联锁系统为依据,结合研究人员目前研制的微机联锁仿真与培训系统,设计和实现了它上面的五套可视化图形辅助工具和微机联锁程序.论文第一、二章主要介绍微
随着国家对建筑信息化模型的战略引导和推广,针对结构工程信息化、数字化的研究和应用已成为当前的热点,迫切需要理论上的提升和方法上的创新。本文综合运用现代土木工程学科与
物联网被誉为是继计算机、互联网之后的第三次信息技术革命,已经引起各国政府、工业界和学术界的高度关注。随着以RFID、无线传感网络为代表的感知技术和通信技术的飞速发展,有
近年来,随着企业信息化系统建设的不断推进,工作流系统已经得到了越来越广泛的应用。企业针对不同领域开发出各式各样的工作流程应用于日常的生产实践中,极大地提高了企业办
伴随着新纪元的到来,人类已经全面进入互联网的新世界,人们生活的方方面面都在被互联网的思维改变着。随着国家“宽带网络校校通、优质资源班班通、网络学习空间人人通”的“三
MCAI技术从90年代初期发展至今,已日渐成熟.它主要涉及到多媒体、数据库、人工智能、数据通信以及教育心理等多学科.目前主要研究方向有系统模型、标准化、多媒体的数据压缩
随着互联网的发展、存储规模的骤增,大型数据中心硬盘频繁损坏导致的数据丢失给企业带来的损失已成为不可忽视的重大问题。硬盘厂商生产的各种型号硬盘通常都会支持SMART(全称