论文部分内容阅读
微博、Twitter、BBS、SNS等网站及微信、QQ等的即时通信应用的兴起带来了海量的短文本数据。短文本信息的内容涵盖范围广,信息含量高,为政府、商业组织等提供了重要信息来源。因此,如何从这些短文本中挖掘出有意义的信息成为了当下研究的热点。但由于短文本篇幅短小,特征稀疏等问题导致传统的长文本分类算法不能很好的适用于短文本分类问题中,因此,本文针对短文本的上述问题,研究了短文本的特征扩展方法,并结合当前流行的集成学习模型探讨短文本的分类精度提升方法。本文的主要工作包括如下几个方面:1.为解决短文本的特征稀疏的问题,本文提出了基于Wikipedia和Word2Vec的特征扩展方法。该方法首先根据维基百科页面结构和链接信息得到与主题概念相关度较高的概念集合,然后使用word2vec工具度量相关概念与主题概念之间的相关度,最后基于该语义相关概念集合对短文本进行特征扩展。与传统的采用统计方法进行语义相关度度量的方法相比,本文中的方法能够对语义相关度进行更精准的度量。实验结果表明采用外部知识库对短文本进行特征扩展能够提高分类的性能,且本文中的方法的性能提升更明显。2.结合短文本内部的语义信息,提出了基于LDA主题模型的短文本特征扩展方法,本方法中首先得到类别高频词集,然后将类别高频词作为特征集来训练LDA主题模型,最后根据得到的主题模型对短文本进行特征扩展。该扩展方法中训练主题模型使用的特征词集为类别高频词,充分利用了短文本数据集内部的语义信息。实验结果表明基于LDA主题模型方法结合短文本内部的语义信息实现了对短文本进行特征扩展,在一定程度上提高了短文本分类的性能。3.提出了基于多源异构特征的随机森林模型(MEF-RF)。基于Wikipedia和Word2Vec的扩展方法利用外部知识库丰富短文本特征的同时增加了特征维度和冗余词;基于LDA主题模型的扩展方法利用内部的主题信息缓解了短文本特征稀疏的问题,但不同的训练集得到的主题模型的性能是不同的,会影响扩展词的分类贡献率,导致分类性能不稳定,且两种特征扩展方法在不同类别上的分类性能具有差异性。因此,为充分发挥基于维基百科和LDA主题模型进行短文本特征扩展的优势,并结合集成学习方法拥有的处理高纬度、冗余数据、不稳定问题方面的能力,本文提出了MEF-RF方法。实验结果表明,综合多源特征扩展结果,采用选择性集成学习思想构造的短文本分类模型具有较高的分类性能和泛化能力。