搜索结果的主题覆盖度及优化研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:zyq201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络搜索中,用户通常浏览较少的页面。网络用户对第一屏搜索结果的体验成为搜索引擎能否吸引网络用户的重要因素。网络用户希望第一屏结果能够提供更多的主题。笔者在前期的实证研究注意到这一现象并将其作为优化目标。  本文提出主题覆盖度的概念,并给出使用主题覆盖度度量实验室试验结果的操作方法。主题覆盖度是在一定的查准率水平上检索到的相关主题集合的势与相关主题全集的势的百分比。在批处理试验中,借助TREC新颖性项目对AQUAINT语料的相关性和新颖性的标引来统计相关主题的数量,藉此可求得一个试验系统的主题覆盖度。  本文讨论了主题覆盖度在相关性理论中的定位。深入讨论主题覆盖度与新颖性和多样性等概念之间的关系。对现有的信息检索评价指标及其指导思想进行梳理,归纳总结出指导评价指标构建的惩罚和限制思想,并从理论、用户研究和试验结果三个方面说明主题覆盖度不宜采用惩罚思想而宜采用限制思想的原因。对比分析了主题覆盖度与以查全率为代表的评价指标之间的继承和发展的关系,明确说明了它们在惩罚、前N位限制、有序、评价对象和评价目标等方面的差异。  本文对文档空间和主题空间特征进行了分析,刻画了文档空间的微观和宏观结构,并根据宏观结构构建了决策模型。决策模型包括两部分对主题多寡程度的刻画:基量和增量。基量部分处于文档类簇的中心部分,可通过聚类技术找到并通过相关匹配度量。增量部分处于文档类簇的边缘部分,可通过新颖性技术找到并度量。以二者的凸组合作为搜索决策框架。  最后,采用TREC新颖性项目的N51~N100查询话题作为查询,AQUAINT语料库作为文本,比较了上述决策框架下的余弦和KL散度两种相似度量,差集和查询相似两种新颖性计算方法的效果。试验结果显示,KL散度和差集的组合能够达到这一试验设定下的最优情形,并且试验系统的结果较之Indri系统得到的基线结果有统计显著性的改善。试验结果还显示,显著的差异通常从第四位开始,主题覆盖度较之查全率有更高的评价精度。  这一研究是信息检索领域的重要命题。文献调查结果显示国内外专家近年在新颖性、子主题、联合搜索和多样性等方面的研究与本文有紧密联系,说明这一研究具有前沿性。它也是解决海量环境下搜索结果不理想现状的一种新的思路和方法。  本文的创新点主要包括:提出主题覆盖度的概念,界定主题覆盖度及其度量方法,并通过理论研究、问卷调查和试验结果说明主题覆盖度较之已有评价指标的优点和异同;首次在不引入度量的前提下讨论文档空间结构,并说明内部和边界的文档空间宏观结构划分是普遍存在的;重新阐释聚类和相关主题计算的关系,并提出了面向主题覆盖度优化的决策模型并通过试验检验。
其他文献
[本刊讯]12 月 19 日,由广东省企业文化研究会、广东省精神文明建设研究中心、《新经济》杂志社,以及广州、深圳、珠海、茂名、湛江等广东各地市企业文化社团联合主办的2018
期刊
档案收集工作在我国历史悠久,自夏朝文书档案工作的产生而开始。新中国成立后我国确立了集中统一管理档案原则,设置专门的档案保管机构——档案馆、档案室,不断完善法规制度、采
认为与国内图书馆核心竞争力研究热形成鲜明对比的是,反映国外图书馆核心竞争力研究情况的研究论文在国内相对欠缺.从图书馆核心竞争力概念的界定、培育目的、发展历程及构建
随着互联网技术的发展和企业信息化的推动,电子邮件越来越多的承担起企业内部管理、知识传递、商务往来等重要职责,成为企业经营管理的核心工具。企业电子邮件中包含着大量有价
[教学内容]rn浙教版二年级上册第 88、89页.rn[教学过程]rn一、导入新课,激发兴趣rn师:同学们,我们每天都要与吃、穿、行打交道,这些事情中有什么数学问题呢?rn生:各种菜要搭
期刊
以基于语义Web的数字图书馆为研究对象,从国外典型的基于语Web数字图书馆原型系统以及语义Web的数字图书馆在底层系统架构、信息描述与信息组织、信息搜索与浏览、信息交流与
图书馆数字信息服务评价研究面临着许多新的课题。为更有效地提高评价的深度和广度,提升评价结果的价值和利用范围,必须对相关领域内的评价研究加以整合,从微观和宏观两个层
新课程改革坚持以学生的发展为目标,教师要通过生物教学来帮助学生实现有效地学习,让不同的学生都能得到最充分的发展。课堂通过教学这一基本的形式,使学生获得信息,使他们的多种
傅斯年是中国现代史学界具有巨大影响的学者。1928年,傅斯年着手创办了历史语言研究所,并担任终身所长。与此同时,他发表了《历史语言研究所工作之旨趣》一文,高举“史学便是史料
国外将成本效益分析、投资回报率应用于图书馆价值的研究中,成果颇为丰硕,而相比之下,国内的相关研究存在实证研究不足、相关研究团队少、研究内容新颖度不够等弱势,文章在分