短文本挖掘技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:genye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着web2.0技术的进一步发展,微博平台、短信平台、即时通信工具平台已经成为人们日常生活不可或缺的工具。人们每天通过短文本如微博、短信、聊天、新闻评论等方式,对社会现象进行评价,表达观点。目前,短文本数据挖掘是一个方兴未艾的研究方向。   短文本因其独特的特点,在以下几个方面不同于传统的文本分析。首先,每条文本的长度一般在140字以内,非常短小,文本的特征非常稀疏。其次,短文本的传输速度非常快,短时间内发送数量惊人,短文本处理必须满足实时性,高效率等要求。另外,短文本的表达方式不正式、用语不规范、噪声较多,也给短文本数据挖掘提出了更高的挑战。本文对短文本的研究主要集中在短查询词的查询扩展、快速聚类分析、短文本问题发现及质量打分三个方面。本文的主要创新工作如下:   一、提出一种基于KNN-KL-LM混合模型的短查询词查询扩展算法,该算法综合使用聚类算法、语言模型、KL距离等方法。在TREC相关反馈评测数据集实验证明本文提出的算法在statAP指标中有21.5%的提升。   二、针对短文本快速聚类问题,提出一种两步聚类的方法。首先我们对短文本进行去重预处理,然后先对文本进行大颗粒聚类,再我们提出的算法对文本进行第二次聚类。实验证明该算法可以实现对百万短文本数据的快速聚类分析,能够满足对海量文本的实时性要求。   三、改进了自动问答系统中的问题分析模块。首先把问答系统中的问题分为两类,并通过对疑问模式探索,提出用疑问模式挖掘的方式对短文本进行问题识别。然后提出用分类的思想对短文本进行质量打分。经过四分交叉验证表明,本文提出的问题识别和质量打分算法在召回率和准确率上都有不错的表现。
其他文献
腺嘌呤是植物体不可缺少的生物物质,是生物遗传信息的组成部分,还是植物细胞分裂素、ATP、许多酶的辅因子(如乙酰辅酶A、辅酶A转移酶等)及细胞通讯媒介(如3’,5’-环式单磷酸腺
在△ABC中,有不等式cos2A+cos2B+cos2C≥3/4[1]等号成立当且仅当△ABC为正三角形.
2013年,汝州市绿色种植专业合作社成立,合作社有社员46户.合作社有基地600亩,建成大棚22个,主要种植番茄、黄瓜、花菜、芹菜、豆角等蔬菜,年产量10多万千克.2014年,公司产品
期刊
中国石龙子(Eumeces chinensis)隶属于爬行纲(Reptilia)、有鳞目(Squamata)、石龙子科(Scincidae)、石龙子属(Eumeces),主要分布地为中国南部和越南。由于中国石龙子具有对环境
“移动通信宽带化”成为当下移动通信的趋势,3GPP在许多年B3G研究的技术储备基础上研发出“准4G”技术-LTE(Long TermEvolution),以此来应对WiMAX等移动宽带无线接入技术带来的
滑县进宝有机蔬菜农民合作社位于河南省滑县高平镇河门头村.2009年,合作社505亩蔬菜基地生产的番茄、黄瓜、芫荽获得了无公害农产品认证.获证前,产品仅在县内及周边地区销售,
期刊
Mini-MFC组装机制的研究和eIF5-CTD晶体结构的研究多因子复合物(MFC)是43S前起始复合物形成过程中的一个重要的中间体,它由eIF1,eIF2,eIF3和eIF5四个蛋白质翻译起始因子包含十几
学位
在科学技术的日益发展的今天,能自动实时地监控各种场景的智能视频监控系统已经广泛地融入到了社会的各行各业中,比如银行,小区,工厂的安全监控系统,高速公路上的流量监控系统等等
二十一世纪,恶性肿瘤将成为威胁人类健康的第一杀手。随着分子生物学、免疫学以及基因技术的不断发展,肿瘤疫苗已经成为一种治疗恶性肿瘤的重要方法。本研究针对DNA疫苗在恶性