论文部分内容阅读
在自然语言处理的研究领域里,文本分类是一个十分经典的问题。不仅如此,文本分类过程还是内容过滤、特征提取等自然语言处理问题的基础之一。随着网络媒体的快速发展,通过网络媒体进行传输的数据量逐渐增多,其中,文本数据增长的数量更是十分地巨大。这些信息十分具有价值,它们与网络用户的阅读行为关系密切并且包含着巨大的深层信息。如果可以根据不同的需求对文本信息进行准确的分类,这将会对文本深层信息的提取有很大的帮助,所以一个有效的文本分类算法具有一定的理论意义与应用价值。在文本中存在一些词汇与文本分类过程关系很小,这些词在文本分类过程中与文本呈弱相关状态。TF-IDF(Term Frequency-Inverse Document Frequency)算法是当前信息检索领域中进行词频统计的一种有效算法,它在进行词频加权统计时能够同时考虑词汇对于文本数据集和当前分析的文本的重要性。基于神经网络的分类方法是当前文本分类中比较常见的机器方法,其中,基于卷积神经网络的文本分类方法受研究学者的欢迎并成为研究的热点之一。但是卷积神经网络在反向传播过程等方面存在一些弊端,可能会对文本分类效果产生一定的影响。胶囊网络利用动态路由算法可以在一定程度上针对以上问题对神经网络结构进行改进。本文主要工作及创新如下:(1)根据文本数据特点,提出基于TF-IDF矩阵的弱相关词汇去除算法,去除文本数据中对文本分类影响较小的一些词汇,减少文本特征,从而减少文本词嵌入的向量大小,增加文本分类器的效率。(2)使用基于胶囊网络的文本分类模型对文本数据进行分类,通过动态路由算法来改进反向传播过程中由局部最优解导致的文本分类准确性降低的情况。(3)通过实验,验证了基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类模型在文本分类方面的有效性。除此之外,本文还对现有的卷积神经网络文本分类模型的不足进行分析和总结,提出未来相关研究的展望。