基于集成学习的短文本分类问题研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：sss03157017633

【摘要】

：

微博、Twitter、BBS、SNS等网站及微信、QQ等的即时通信应用的兴起带来了海量的短文本数据。短文本信息的内容涵盖范围广,信息含量高,为政府、商业组织等提供了重要信息来源

【作者】

：

刘文森

【出处】

：

国防科学技术大学

【发表日期】

：

2004年期

【关键词】

：

短文本分类特征扩展 LDA主题模型选择性集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

微博、Twitter、BBS、SNS等网站及微信、QQ等的即时通信应用的兴起带来了海量的短文本数据。短文本信息的内容涵盖范围广,信息含量高,为政府、商业组织等提供了重要信息来源。因此,如何从这些短文本中挖掘出有意义的信息成为了当下研究的热点。但由于短文本篇幅短小,特征稀疏等问题导致传统的长文本分类算法不能很好的适用于短文本分类问题中,因此,本文针对短文本的上述问题,研究了短文本的特征扩展方法,并结合当前流行的集成学习模型探讨短文本的分类精度提升方法。本文的主要工作包括如下几个方面:1.为解决短文本的特征稀疏的问题,本文提出了基于Wikipedia和Word2Vec的特征扩展方法。该方法首先根据维基百科页面结构和链接信息得到与主题概念相关度较高的概念集合,然后使用word2vec工具度量相关概念与主题概念之间的相关度,最后基于该语义相关概念集合对短文本进行特征扩展。与传统的采用统计方法进行语义相关度度量的方法相比,本文中的方法能够对语义相关度进行更精准的度量。实验结果表明采用外部知识库对短文本进行特征扩展能够提高分类的性能,且本文中的方法的性能提升更明显。2.结合短文本内部的语义信息,提出了基于LDA主题模型的短文本特征扩展方法,本方法中首先得到类别高频词集,然后将类别高频词作为特征集来训练LDA主题模型,最后根据得到的主题模型对短文本进行特征扩展。该扩展方法中训练主题模型使用的特征词集为类别高频词,充分利用了短文本数据集内部的语义信息。实验结果表明基于LDA主题模型方法结合短文本内部的语义信息实现了对短文本进行特征扩展,在一定程度上提高了短文本分类的性能。3.提出了基于多源异构特征的随机森林模型(MEF-RF)。基于Wikipedia和Word2Vec的扩展方法利用外部知识库丰富短文本特征的同时增加了特征维度和冗余词;基于LDA主题模型的扩展方法利用内部的主题信息缓解了短文本特征稀疏的问题,但不同的训练集得到的主题模型的性能是不同的,会影响扩展词的分类贡献率,导致分类性能不稳定,且两种特征扩展方法在不同类别上的分类性能具有差异性。因此,为充分发挥基于维基百科和LDA主题模型进行短文本特征扩展的优势,并结合集成学习方法拥有的处理高纬度、冗余数据、不稳定问题方面的能力,本文提出了MEF-RF方法。实验结果表明,综合多源特征扩展结果,采用选择性集成学习思想构造的短文本分类模型具有较高的分类性能和泛化能力。

其他文献

《混凝土用机制砂质量标准及检验方法》编制目的和要点说明

期刊

混凝土人工机制砂检验方法质量标准编制

重庆市基本公共卫生服务政策执行分析

2009年,我国启动新一轮医药卫生体制改革,提出建立健全覆盖城乡居民的基本医疗卫生制度,为群众提供安全、有效、方便、价廉的医疗卫生服务。为实现人人享有基本医疗卫生服务的目标,全面加强公共卫生服务体系建设、促进基本公共卫生服务逐步均等化作为改革的重要内容被提上议事日程。从2009年起,国家启动基本公共卫生服务项目,政府针对当前城乡居民存在的主要健康问题,以0-6岁儿童、孕产妇、65岁以上老年人、慢性

学位

基本公共卫生服务政策执行史密斯模型

成人颅咽管瘤术后钠离子紊乱相关影响因素分析

目的:本文通过分析颅咽管瘤患者术后钠离子紊乱的类型、发生特点与相关因素的关系,初步讨论成年颅咽管瘤患者术后钠离子紊乱的发生规律以及影响因素。材料及方法:通过回顾性

学位

颅咽管瘤钠离子紊乱下丘脑垂体柄

高产乙酸乙酯且有耐受性酵母的选育及固定化研究

清香型白酒是中国白酒具有代表性的香型之一,历史源远流长,文化底蕴深厚,主要香气成分是乙酸乙酯和乳酸乙酯。酵母菌是酿酒过程中的主要微生物类群,能通过代谢产生酒精和乙酸

学位

酿酒酵母产酯酵母乙酸乙酯诱变育种固定化

H集团人才流失问题及对策研究

每个企业都会面临人才流失问题。虽然一定程度上的人才流动有利于企业内部融入新鲜血液,为组织带来新的活力,但如果人才持续流失,必然会影响企业长足发展,给企业造成损失。H集团在人力资源管理过程中面临着一定的人才流失问题。本文以H集团为研究对象,剖析人才流失的主要原因,提出相应的解决方案,在实践上具有一定的参考价值。首先,阐明此次研究的研究背景、研究目的及意义,以国内外人才流失的现状进行分析对比,确定研究

学位

人才流失培训薪酬福利绩效对策

高通量傅里叶变换成像光谱仪调制度分析

介绍了高通量傅里变换成像光谱仪的概念，分析了其中使用的改进型Mach-Zehnder干涉仪的原理，计算出其光程差以及调制度．可以看出：要得到较好的调制图形，必须满足两像面夹角和像方孔

期刊

光谱成像MACH-ZEHNDER干涉仪调制度Spectral imagingMach-Zehnder interferometerDegree of mo

哥伦比亚大学通识课程设置研究及启示

世界各国高等教育的竞争主要是人才的比拼,国内高等教育改革的需要、全球高等教育发展的趋势,呼唤中国高校通识教育的深入开展。通识教育是一种广泛的、非专业性的、非功利性

学位

哥伦比亚大学通识教育课程设置启示

克服“千篇一律”的良方——环境意识的觉醒

本文指出环境既是建筑创作的起点,又是其归属,建筑创作应以环境体察和场所感悟为基础进行立意构思,透过建筑与环境共生共融,相得益彰, 从而体现出鲜明的个性与特色.