论文部分内容阅读
在网络搜索中,用户通常浏览较少的页面。网络用户对第一屏搜索结果的体验成为搜索引擎能否吸引网络用户的重要因素。网络用户希望第一屏结果能够提供更多的主题。笔者在前期的实证研究注意到这一现象并将其作为优化目标。 本文提出主题覆盖度的概念,并给出使用主题覆盖度度量实验室试验结果的操作方法。主题覆盖度是在一定的查准率水平上检索到的相关主题集合的势与相关主题全集的势的百分比。在批处理试验中,借助TREC新颖性项目对AQUAINT语料的相关性和新颖性的标引来统计相关主题的数量,藉此可求得一个试验系统的主题覆盖度。 本文讨论了主题覆盖度在相关性理论中的定位。深入讨论主题覆盖度与新颖性和多样性等概念之间的关系。对现有的信息检索评价指标及其指导思想进行梳理,归纳总结出指导评价指标构建的惩罚和限制思想,并从理论、用户研究和试验结果三个方面说明主题覆盖度不宜采用惩罚思想而宜采用限制思想的原因。对比分析了主题覆盖度与以查全率为代表的评价指标之间的继承和发展的关系,明确说明了它们在惩罚、前N位限制、有序、评价对象和评价目标等方面的差异。 本文对文档空间和主题空间特征进行了分析,刻画了文档空间的微观和宏观结构,并根据宏观结构构建了决策模型。决策模型包括两部分对主题多寡程度的刻画:基量和增量。基量部分处于文档类簇的中心部分,可通过聚类技术找到并通过相关匹配度量。增量部分处于文档类簇的边缘部分,可通过新颖性技术找到并度量。以二者的凸组合作为搜索决策框架。 最后,采用TREC新颖性项目的N51~N100查询话题作为查询,AQUAINT语料库作为文本,比较了上述决策框架下的余弦和KL散度两种相似度量,差集和查询相似两种新颖性计算方法的效果。试验结果显示,KL散度和差集的组合能够达到这一试验设定下的最优情形,并且试验系统的结果较之Indri系统得到的基线结果有统计显著性的改善。试验结果还显示,显著的差异通常从第四位开始,主题覆盖度较之查全率有更高的评价精度。 这一研究是信息检索领域的重要命题。文献调查结果显示国内外专家近年在新颖性、子主题、联合搜索和多样性等方面的研究与本文有紧密联系,说明这一研究具有前沿性。它也是解决海量环境下搜索结果不理想现状的一种新的思路和方法。 本文的创新点主要包括:提出主题覆盖度的概念,界定主题覆盖度及其度量方法,并通过理论研究、问卷调查和试验结果说明主题覆盖度较之已有评价指标的优点和异同;首次在不引入度量的前提下讨论文档空间结构,并说明内部和边界的文档空间宏观结构划分是普遍存在的;重新阐释聚类和相关主题计算的关系,并提出了面向主题覆盖度优化的决策模型并通过试验检验。