面向微博的动态短文本检索技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tb0401292
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的快速发展,互联网上积累了海量的用户产生内容,如微博、论坛、贴吧、评论等。这类信息资源具有两个显著的特点:(1)文档具有时间动态性特征,即文档与时间紧密相连,内容与现实世界相交织;(2)文档具有短文本特征,内容往往就是一两个句子,内容稀疏。在本文统称这类信息资源为以微博为代表的动态短文本资源。动态短文本信息资源的处理,对市场调查、舆情分析、广告推广以及智能短文本对话具有重要的应用和研究价值。这些具有重要价值的应用和研究,从应用阶段的层面来看,需要从海量的信息资源中找到符合特定信息需求的文档;从技术层面来看,这些应用的文本相似性计算、语言模型、话题分析技术与信息检索技术是息息相关的。同时以微博为代表动态短文本的不同的特点使得其检索不同于传统的网页检索,所以探索以微博为代表的动态短文本检索技术具有重要实用和研究价值。  本文将以动态短文本为研究对象,以微博检索应用为目的,从时间动态性和短文本特性入手,对动态短文本的排序和匹配做了深入的研究,本文的主要研究内容和贡献有以下四点:  (1)针对微博查询的时间敏感特性,本文提出了时间敏感的微博排序模型;相关研究表明,微博的排序是具有时间敏感特性的。本文在Trec2011-2012微博检索任务的数据集上分析了时间因素影响微博排序的特点,得到了微博检索的时间影响并非是先前相关研究根据经验的到的简单、直接的假设所能概括的,而是一种复杂的影响。本文提取了多种影响微博时间排序的特征,包括全局特征和局部特征,考虑了线性和非线性打分函数,使用排序学习的方法来确定一个时间敏感的微博排序学习方法,最后在Trec2011-2012微博数据集上做多组实验,分析了实验效果以及特征的作用。实验结果表明,基于时间敏感的排序学习算法优于其他的时间敏感的微博排序算法。  (2)在时间敏感的微博排序学习模型基础上,本文针对不同查询具有不同排序模式,提出了查询依赖(Query-Dependent)的微博排序学习模型;本文认为上述排序学习方法是一种总体抽样上平均最好,不同的查询具有不相同的时间因素影响微博排序的模式。本研究分析了时间影响微博排序的模式,提出了相似查询的时间分布具有相似的时间因素影响微博排序的模式的假设。根据这一假设,使用具有相似时间分布的查询训练集来训练一个查询依赖的微博排序学习模型,并在Trec2011-2012微博检索数据集上验证了该方法的有效性。  (3)针对短文本的失配问题,本文提出了短文本的隐因子语义匹配模型;微博检索的另一个特性是微博的短文本特性,短文本更易受到失配问题的困扰。本研究分析推导了适用于检索的隐因子匹配模型,分析证明了最新的RMLS算法存在退化解。为了解决这个问题,本研究借鉴正则化矩阵分解过程,提出使用添加匹配矩阵稀疏限制到优化目标函数上,通过坐标协调下降和梯度下降算法来求解隐因子匹配模型。由于目前没有可用的微博日志数据,本文在和微博检索具有相同短文本特性的应用搜索的数据上做了一系列实验,探讨了不同隐因子维度、并行策略以及优化算法,验证了该方法的有效性和可扩展性。  (4)在隐因子匹配模型的基础上,本文为解决尾查询训练数据稀疏性的问题,提出了融入语义知识的隐因子语义匹配模型;在实际的应用中,由于查询和文档存在着长尾效应,有很多查询和文档没有足够的点击数据,所以对于这些查询和文档,隐因子模型无法得到有效的模型。在实际系统中,往往通过各种方式积累了多种语义知识,融入这些语义知识到训练得到的模型中具有重要的意义。本研究分别从查询日志中挖掘出的查询的同义词表和从文档的层次类别信息中挖掘出的标签同义词表,形成新的隐因子模型的优化目标函数,求解得到一个融合语义知识的隐因子模型。在和微博搜索具有相同短文本特性的应用搜索的数据集合上,探讨了不同初始化矩阵,不同隐因子维度的影响,验证了该方法的能够有效利用语义知识,提高检索效果,特别是针对尾查询。
其他文献
本文对PKI技术和安全中间层的实现方法,以Window密码服务提供者(CSP)的原理进行了研究。在此基础上设计了USSPCSP。CSP要保证实现所有与CryptoAPI中函数相对应的CryptoSPI函数
Internet环境下开放、动态的本质、计算实体自身的自主性和独立性、以及网络连接的不稳定性等,均对保障软件系统可用性提出了新的要求。现在基于构件的软件系统的可用性分析和
云计算的发展为数据中心带来了新的应用场景,其中,虚拟化作为云服务的重要使能技术,对数据中心服务器I/O系统的性能、扩展性和设备种类多样性提出了更高的要求,沿用传统设备与服
在社会生活和交往中,面孔的感知和识别扮演着重要的角色。对一个人身份的识别往往是首先通过对其面孔的加工来进行。来自多方面研究的证据表明在人脑内存在着专门负责面孔加工
移动机器人自主导航问题是机器人学领域的核心问题之一,涉及了路径规划、地图构建等关键技术;计算智能是指计算机利用数学方法模拟人类智能处理传感器信息,完成复杂的智能行为。
随着Internet的普及和快速发展,Internet为我们提供了涉及方方面面的无数的文档资料。因此为了能够在如此巨大并且更新频繁的信息中,搜索到我们所需的信息,必须需要一种精确
光顺是几何造型中的一项重要技术,其目的是滤除模型表面噪声,产生高质量的光滑曲面。本文首先对目前已有的网格模型光顺理论进行总结,然后结合实际应用,设计了一种保持特征的网格
随着计算机技术的迅速发展和硬件水平的快速提升,尤其是近年来高性能计算机和并行技术的发展,科学计算可视化作为分析计算结果数据的关键手段已经成为高性能计算的不可缺少的组
学位
软件构件库是软件复用的支持设施之一。构件库主要提供构件描述、分类、发布、存储、检索、反馈和评估等构件管理作用。当前,随着以Web Services为代表的分布式构件技术的发展
现代信息社会对计算机系统和互联网络的高度依赖使得作为其基础设施的软件变得尤为重要。作为信息安全中重要的一环,软件安全得到了学术界和工业界高度的重视。 软件的庞多