论文部分内容阅读
伴随着web2.0技术的进一步发展,微博平台、短信平台、即时通信工具平台已经成为人们日常生活不可或缺的工具。人们每天通过短文本如微博、短信、聊天、新闻评论等方式,对社会现象进行评价,表达观点。目前,短文本数据挖掘是一个方兴未艾的研究方向。
短文本因其独特的特点,在以下几个方面不同于传统的文本分析。首先,每条文本的长度一般在140字以内,非常短小,文本的特征非常稀疏。其次,短文本的传输速度非常快,短时间内发送数量惊人,短文本处理必须满足实时性,高效率等要求。另外,短文本的表达方式不正式、用语不规范、噪声较多,也给短文本数据挖掘提出了更高的挑战。本文对短文本的研究主要集中在短查询词的查询扩展、快速聚类分析、短文本问题发现及质量打分三个方面。本文的主要创新工作如下:
一、提出一种基于KNN-KL-LM混合模型的短查询词查询扩展算法,该算法综合使用聚类算法、语言模型、KL距离等方法。在TREC相关反馈评测数据集实验证明本文提出的算法在statAP指标中有21.5%的提升。
二、针对短文本快速聚类问题,提出一种两步聚类的方法。首先我们对短文本进行去重预处理,然后先对文本进行大颗粒聚类,再我们提出的算法对文本进行第二次聚类。实验证明该算法可以实现对百万短文本数据的快速聚类分析,能够满足对海量文本的实时性要求。
三、改进了自动问答系统中的问题分析模块。首先把问答系统中的问题分为两类,并通过对疑问模式探索,提出用疑问模式挖掘的方式对短文本进行问题识别。然后提出用分类的思想对短文本进行质量打分。经过四分交叉验证表明,本文提出的问题识别和质量打分算法在召回率和准确率上都有不错的表现。