论文部分内容阅读
在大数据时代,用户在社交媒体平台发表的正负面评价可以直接反映出用户对某一事件或产品的看法,对这些正负面评价文本的情感分析将对市场监控和调研、用户推荐、网络舆情发现和预警等提供可靠的数据支持。针对复杂的正负面评价文本,传统的情感分析特征提取方法效果并不显著,本文引入了多级Attention机制到微博评论数据的正负情感分类中,与BiLSTM长短时记忆神经网络模型结合,实现一种改进的情感分类算法模型Multi-level Attention-BiLSTM。并通过实验验证该模型在微博正负性评论文本分类任务上准确率可达91.8%,相较于单层Attention-BiLSTM和BiLSTM算法模型准确度分别提升0.2%和0.8%。并在此基础上采用集成学习思想,将多种强分类器融合,使得微博分类任务的准确度达到92%,相比提升0.2%。本文主要完成的工作如下:1.基于FastText的文本获取及预处理。收集并整理了微博正负面评论共12万条,通过FastText文本表示模型训练词向量,采用Python的gensim库训练模型,用每个词的TF-IDF作为权重,结合文本集的大小设置合适的长度限制,完成对文本的补零和截断操作。2.实现和优化了 Multi-level Attention-BiLSTM的情感分类算法模型。本文将Attention和BiLSTM长短时记忆神经网络模型结合,.设计双层注意力机制分别训练单词和句子的权重,并通过调整超参数优化模型。设计了多组对比实验,证明了 Multi-level Attention-BiLSTM算法模型添加了多层Attention机制后分类效果有所提升。3.研究了模型融合对微博评论文本情感分类的影响。为了解决情感分类任务中模型的泛化能力弱、准确度低等问题,采用集成学习模型融合的思想,将Multi-level Attention-BiLSTM算法模型与XGBoost、Bayes、LSTM、BiLSTM这五种分类器通过bagging的方式进行融合,并应用到微博评论文本情感分类中,通过实验验证模型融合的可行性和有效性。