论文部分内容阅读
随着互联网的快速发展,面对海量的文本信息,人们急切希望寻找一个有效的方式来对这些资源进行管理以及分类。其中,文本信息占据了很大比例的资源。而文本分类可以应用于很多领域,如情报分析,新闻分类等,为保证各个领域内能准确地对文本进行分类,得到精确的文本类别,本课题旨在对文本分类进行研究,通过设计不同的模型在选取的中英文新闻文本数据集上进行验证,以提高最终的指标。首先,讲述文本分类的一般流程,并分析每个算法的优缺点。通过词频-反文档频率算法(Term Frequency-Inverse Document Frequency,TFIDF)进行提取特征,并利用传统的分类算法进行实验。通过实验结果发现,该方法只能提取到较浅层次的文本特征并且忽略了每个特征词之间的联系,使其在数据集上呈现的准确率稍差。因此,本课题提出使用深度学习卷积神经网络(Convolutional Neural Networks,CNN)模型作进一步的研究。然后,本文论述CNN模型应用在文本分类上的具体流程,并进行实现。对于本课题使用的中英文数据集,多次实验来寻找最佳的参数设置,以便达到最佳的准确率,其中中文数据集可达到96.650%,英文数据集可达到93.950%,该结果证明了CNN模型能很好的提高文本分类的准确率。然而,由于CNN模型最后一层softmax层在分类以及泛化能力上弱于传统的分类算法。因此本文提出组合模型,即CNN模型用作特征提取,支持向量机(Support Vector Machine,SVM)等分类算法用来分类。通过实验结果发现基于CNN-SVM-KNN模型的中文数据集的准确率可达到96.783%,英文数据集的准确率可达到94.425%,该实验结果证明了组合模型能有一定的提升作用。最后,为解决softamx的损失函数只能优化不同类别之间的方差,而无法减少相同类别内的差异的问题,提出使用人脸识别领域中的AM-Softmax损失函数。本文将其设定为模型的损失函数,提出AMCNN模型。其中中文数据集的AMCNN模型的准确率可达到97.400%,英文数据集的AMCNN模型的准确率可达到95.125%,通过实验结果发现AMCNN模型提高了文本分类的各项指标。同时利用模型对爬虫获取的中文新闻进行分类,结果以界面的形式呈现。