短文本挖掘技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：genye

【摘要】

：

伴随着web2.0技术的进一步发展，微博平台、短信平台、即时通信工具平台已经成为人们日常生活不可或缺的工具。人们每天通过短文本如微博、短信、聊天、新闻评论等方式，对社会现

【作者】

：

刘春博

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年期

【关键词】

：

短文本挖掘技术查询扩展快速聚类分析实时性需求自动问答系统问题识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着web2.0技术的进一步发展，微博平台、短信平台、即时通信工具平台已经成为人们日常生活不可或缺的工具。人们每天通过短文本如微博、短信、聊天、新闻评论等方式，对社会现象进行评价，表达观点。目前，短文本数据挖掘是一个方兴未艾的研究方向。　　短文本因其独特的特点，在以下几个方面不同于传统的文本分析。首先，每条文本的长度一般在140字以内，非常短小，文本的特征非常稀疏。其次，短文本的传输速度非常快，短时间内发送数量惊人，短文本处理必须满足实时性，高效率等要求。另外，短文本的表达方式不正式、用语不规范、噪声较多，也给短文本数据挖掘提出了更高的挑战。本文对短文本的研究主要集中在短查询词的查询扩展、快速聚类分析、短文本问题发现及质量打分三个方面。本文的主要创新工作如下：　　一、提出一种基于KNN－KL－LM混合模型的短查询词查询扩展算法，该算法综合使用聚类算法、语言模型、KL距离等方法。在TREC相关反馈评测数据集实验证明本文提出的算法在statAP指标中有21.5％的提升。　　二、针对短文本快速聚类问题，提出一种两步聚类的方法。首先我们对短文本进行去重预处理，然后先对文本进行大颗粒聚类，再我们提出的算法对文本进行第二次聚类。实验证明该算法可以实现对百万短文本数据的快速聚类分析，能够满足对海量文本的实时性要求。　　三、改进了自动问答系统中的问题分析模块。首先把问答系统中的问题分为两类，并通过对疑问模式探索，提出用疑问模式挖掘的方式对短文本进行问题识别。然后提出用分类的思想对短文本进行质量打分。经过四分交叉验证表明，本文提出的问题识别和质量打分算法在召回率和准确率上都有不错的表现。

其他文献

植物生物结构物质—腺嘌呤的单晶研究

腺嘌呤是植物体不可缺少的生物物质，是生物遗传信息的组成部分，还是植物细胞分裂素、ATP、许多酶的辅因子(如乙酰辅酶A、辅酶A转移酶等)及细胞通讯媒介(如3’，5’-环式单磷酸腺

学位

腺嘌呤乙二胺配合物化学合成晶体结构抑菌作用

一个常见三角不等试的推广

在△ABC中,有不等式cos2A+cos2B+cos2C≥3/4[1]等号成立当且仅当△ABC为正三角形.

期刊

正三角形不等式ABC

汝州市绿色种植专业合作社无公害农产品+农户扶贫

2013年,汝州市绿色种植专业合作社成立,合作社有社员46户.合作社有基地600亩,建成大棚22个,主要种植番茄、黄瓜、花菜、芹菜、豆角等蔬菜,年产量10多万千克.2014年,公司产品

期刊

Bcl-2及P53在中国石龙子生精细胞凋亡中的作用

中国石龙子（Eumeces chinensis）隶属于爬行纲(Reptilia)、有鳞目(Squamata)、石龙子科(Scincidae)、石龙子属(Eumeces)，主要分布地为中国南部和越南。由于中国石龙子具有对环境

学位

爬行动物中国石龙子生精细胞基因表达

基于通用处理器的TD-LTE下行物理信道的设计实现及优化

“移动通信宽带化”成为当下移动通信的趋势，3GPP在许多年B3G研究的技术储备基础上研发出“准4G”技术-LTE(Long TermEvolution)，以此来应对WiMAX等移动宽带无线接入技术带来的

学位

TD-LTE系统下行物理信道通用处理器SSE指令

滑县进宝有机蔬菜农民合作社无公害农产品+农户扶贫

滑县进宝有机蔬菜农民合作社位于河南省滑县高平镇河门头村.2009年,合作社505亩蔬菜基地生产的番茄、黄瓜、芫荽获得了无公害农产品认证.获证前,产品仅在县内及周边地区销售,

期刊

Mini-MFC亚基间相互作用的研究和eIF5-CTD晶体结构的研究

Mini-MFC组装机制的研究和eIF5-CTD晶体结构的研究多因子复合物(MFC)是43S前起始复合物形成过程中的一个重要的中间体，它由eIF1，eIF2，eIF3和eIF5四个蛋白质翻译起始因子包含十几

学位

多因子复合物翻译起始因子钩端螺旋体甲基异构酶生物合成途径分子生物学

嵌入式干涉条纹处理系统研究

学位

智能视频监控中的人体目标跟踪研究

在科学技术的日益发展的今天，能自动实时地监控各种场景的智能视频监控系统已经广泛地融入到了社会的各行各业中，比如银行，小区，工厂的安全监控系统，高速公路上的流量监控系统等等

学位

人体目标跟踪粒子滤波多特征融合智能视频监控

DNA载体pVAX1-IRES和复制型DNA载体pSFVax1-IRES的构建及表达

二十一世纪，恶性肿瘤将成为威胁人类健康的第一杀手。随着分子生物学、免疫学以及基因技术的不断发展，肿瘤疫苗已经成为一种治疗恶性肿瘤的重要方法。本研究针对DNA疫苗在恶性

学位

恶性肿瘤肿瘤疫苗基因治疗DNA疫苗载体基因表达外源基因

短文本挖掘技术研究

其他学术论文