论文部分内容阅读
随着Web2.0的快速发展,互联网上积累了海量的用户产生内容,如微博、论坛、贴吧、评论等。这类信息资源具有两个显著的特点:(1)文档具有时间动态性特征,即文档与时间紧密相连,内容与现实世界相交织;(2)文档具有短文本特征,内容往往就是一两个句子,内容稀疏。在本文统称这类信息资源为以微博为代表的动态短文本资源。动态短文本信息资源的处理,对市场调查、舆情分析、广告推广以及智能短文本对话具有重要的应用和研究价值。这些具有重要价值的应用和研究,从应用阶段的层面来看,需要从海量的信息资源中找到符合特定信息需求的文档;从技术层面来看,这些应用的文本相似性计算、语言模型、话题分析技术与信息检索技术是息息相关的。同时以微博为代表动态短文本的不同的特点使得其检索不同于传统的网页检索,所以探索以微博为代表的动态短文本检索技术具有重要实用和研究价值。 本文将以动态短文本为研究对象,以微博检索应用为目的,从时间动态性和短文本特性入手,对动态短文本的排序和匹配做了深入的研究,本文的主要研究内容和贡献有以下四点: (1)针对微博查询的时间敏感特性,本文提出了时间敏感的微博排序模型;相关研究表明,微博的排序是具有时间敏感特性的。本文在Trec2011-2012微博检索任务的数据集上分析了时间因素影响微博排序的特点,得到了微博检索的时间影响并非是先前相关研究根据经验的到的简单、直接的假设所能概括的,而是一种复杂的影响。本文提取了多种影响微博时间排序的特征,包括全局特征和局部特征,考虑了线性和非线性打分函数,使用排序学习的方法来确定一个时间敏感的微博排序学习方法,最后在Trec2011-2012微博数据集上做多组实验,分析了实验效果以及特征的作用。实验结果表明,基于时间敏感的排序学习算法优于其他的时间敏感的微博排序算法。 (2)在时间敏感的微博排序学习模型基础上,本文针对不同查询具有不同排序模式,提出了查询依赖(Query-Dependent)的微博排序学习模型;本文认为上述排序学习方法是一种总体抽样上平均最好,不同的查询具有不相同的时间因素影响微博排序的模式。本研究分析了时间影响微博排序的模式,提出了相似查询的时间分布具有相似的时间因素影响微博排序的模式的假设。根据这一假设,使用具有相似时间分布的查询训练集来训练一个查询依赖的微博排序学习模型,并在Trec2011-2012微博检索数据集上验证了该方法的有效性。 (3)针对短文本的失配问题,本文提出了短文本的隐因子语义匹配模型;微博检索的另一个特性是微博的短文本特性,短文本更易受到失配问题的困扰。本研究分析推导了适用于检索的隐因子匹配模型,分析证明了最新的RMLS算法存在退化解。为了解决这个问题,本研究借鉴正则化矩阵分解过程,提出使用添加匹配矩阵稀疏限制到优化目标函数上,通过坐标协调下降和梯度下降算法来求解隐因子匹配模型。由于目前没有可用的微博日志数据,本文在和微博检索具有相同短文本特性的应用搜索的数据上做了一系列实验,探讨了不同隐因子维度、并行策略以及优化算法,验证了该方法的有效性和可扩展性。 (4)在隐因子匹配模型的基础上,本文为解决尾查询训练数据稀疏性的问题,提出了融入语义知识的隐因子语义匹配模型;在实际的应用中,由于查询和文档存在着长尾效应,有很多查询和文档没有足够的点击数据,所以对于这些查询和文档,隐因子模型无法得到有效的模型。在实际系统中,往往通过各种方式积累了多种语义知识,融入这些语义知识到训练得到的模型中具有重要的意义。本研究分别从查询日志中挖掘出的查询的同义词表和从文档的层次类别信息中挖掘出的标签同义词表,形成新的隐因子模型的优化目标函数,求解得到一个融合语义知识的隐因子模型。在和微博搜索具有相同短文本特性的应用搜索的数据集合上,探讨了不同初始化矩阵,不同隐因子维度的影响,验证了该方法的能够有效利用语义知识,提高检索效果,特别是针对尾查询。