论文部分内容阅读
随着互联网产业的飞速发展,改变了人们之间传统的交流方式,网络上短文本数据大量积累,短文本大数据分析迫在眉睫。短文本情感分类是当前短文本研究领域的极其重要的一部分,也是自然语言处理研究方向中不可忽视的一个重要方面,我们需要的不仅仅是对于短文本粗浅的正负向情感的分析,更多类别、更深层次、更加准确的细致情感的划分才是我们现阶段要达到的研究目的。传统的分类模型主要是机器学习的各类模型,例如支持向量机、贝叶斯分类器、决策树等等。近年来,深度学习模型凭借着其独特的优势,俨然有盖过机器学习模型的势头。本篇论文提出了一种VC语料库合成方式、一种WCMG语料库合成方式和一种新的深度学习融合模型。在VC语料库合成方式中,将匮乏的、样本类别数目极不平衡的多情感分类标注的小语料库通过VC二项生成的方式重新构成新语料库,以实现小语料库的扩充和样本类别的平衡;在WCMG语料库合成方式中,将经过VC方式处理的Word2vec预训练词向量和经过VC方式处理的Glove预训练词向量以新的张量连接方式,重新对词向量进行架构,完成两种预训练词向量方式的优势融合,更好的提取出样本数据的特征;在新的深度学习融合模型中,通过对已然提出的多种深度学习分类模型的重现和实验分析,尝试着进行了一定程度的变形实验,提出了一种独特的模型融合方式。从众多的实验结果对比分析来看,VC语料库合成方式可以显著提升模型的准确率,而WCMG语料库合成方式和新的深度学习融合模型则是略微的提升模型的准确率,仍然有一定的改进空间。由此可见,本篇论文提出的VC语料库合成方式、WCMG语料库合成方式和一种新的融合模型相较于传统的语料库处理方式和深度学习模型,具有更强的特征提取能力和模型泛化性,提升了短文本情感分类的准确率。