论文部分内容阅读
以互联网技术的发展为基础,各类信息资源的存量和增长都呈现海量特征,其中文本数据始终占据重要地位。依靠人工方法管理和分类这些海量文本数据,会耗费大量的时间和人力,并且还难以实现。如何有效地管理和使用这些文本信息成为迫切需要解决的问题,这促进了自动文本分类技术的迅速发展。目前,自动文本分类已经广泛应用于知识挖掘、信息检索等领域。未来互联网上的文本数据仍会持续增加,自动文本分类技术将发挥越来越重要的作用。文本分类涉及到机器学习、自然语言处理和数据挖掘等领域的许多技术。影响文本分类性能的因素比较多,主要的影响因素有文本预处理、文本表示、以及分类器的选择和优化等。其中,文本分类所面临的首要问题是怎样高效提取特征、怎样在计算机中合理地表示文本。因此,探寻高效的文本表示方法,对自动文本分类技术的研究具有重要意义。传统的文本表示方法,如布尔模型、向量空间模型,存在数据稀疏和维度灾难问题,导致模型的泛化能力较差。随着机器学习、深度学习技术的快速发展,研究者们开始利用各种神经网络构建文本表示模型,通过神经网络将文本映射到低维连续的向量,提高了模型的表示能力。但是,现有的神经网络文本表示模型也存在一些问题。首先,神经网络对文本的表示虽然具有较好的语义信息,但类别区分能力较缺乏。其次,现有的利用卷积神经网络提取文本特征的方法,主要以数据集所有文本中的最长文本的长度为基准,对小于此长度的其余文本均采用特殊字符进行填充,这种方式将导致较短文本中引入太多无效字符,影响文本原始信息,对文本进行分类时会降低模型性能。本文系统的阐述了文本分类技术中特征提取和文本表示的相关内容,分析现有的文本表示模型,针对目前文本表示模型中存在的不足做出改进。本文的主要研究内容归纳为以下两个方面:(1)提出了单文本表示模型(CDSTR)和融合模型(CDMTR)。其中CDSTR模型结合了改进的TF-IDF和word2vec。首先改进TF-IDF权重计算方法,再利用word2vec能够很好的表示特征词的语义信息这一特点,构建单文本表示模型,使文本表示更高效。在改进的CDSTR模型的基础上,提出了更具类别区分能力的CDMTR模型。该模型主要是分析现有文本表示模型的基础上,融合潜在语义索引(LSI)、TF-IDF加权的向量空间模型(TVSM)和本文提出的单文本表示模型CDSTR,得到更具有类别区分能力的融合模型CDMTR。通过在两个数据集上的测试,验证了CDSTR和CDMTR两个模型性能相比于其他文本表示模型都有较大提升。CDMTR模型取得的微平均F1值和宏平均F1值比常用的将word2vec表示的文本向量累加求平均的方法提升了4%5%。(2)提出了融合模型CDMTR结合卷积神经网络的文本分类方法(MTRMCNN)。首先,改进卷积神经网络模型的网络结构,设计不同尺寸和不同数目的卷积核,让其从不同的角度提取文本中的特征。然后,将CDMTR模型训练得到的文本向量作为改进的卷积神经网络的输入进行训练,进一步完成多种局部抽象特征自动提取,经过池化操作后得到文本的高层次特征。最后,到达全连接层和softmax回归层进行文本分类。MTRMCNN方法可以解决常用方法中以数据集中某篇最长文本的长度为基准,对小于此长度的文本都采用特殊字符补齐填充而影响原始文本信息表达的问题,并且可以减少输入矩阵的维度,提升卷积神经网络的训练速度。通过在两个数据集上的测试,MTRMCNN方法与其他分类方法相比,分类准确率有较大提升,且较本文提出的CDMTR模型更进一步提升了文本分类的准确率。