基于注意力机制的正负面评论分类算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ytvct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,用户在社交媒体平台发表的正负面评价可以直接反映出用户对某一事件或产品的看法,对这些正负面评价文本的情感分析将对市场监控和调研、用户推荐、网络舆情发现和预警等提供可靠的数据支持。针对复杂的正负面评价文本,传统的情感分析特征提取方法效果并不显著,本文引入了多级Attention机制到微博评论数据的正负情感分类中,与BiLSTM长短时记忆神经网络模型结合,实现一种改进的情感分类算法模型Multi-level Attention-BiLSTM。并通过实验验证该模型在微博正负性评论文本分类任务上准确率可达91.8%,相较于单层Attention-BiLSTM和BiLSTM算法模型准确度分别提升0.2%和0.8%。并在此基础上采用集成学习思想,将多种强分类器融合,使得微博分类任务的准确度达到92%,相比提升0.2%。本文主要完成的工作如下:1.基于FastText的文本获取及预处理。收集并整理了微博正负面评论共12万条,通过FastText文本表示模型训练词向量,采用Python的gensim库训练模型,用每个词的TF-IDF作为权重,结合文本集的大小设置合适的长度限制,完成对文本的补零和截断操作。2.实现和优化了 Multi-level Attention-BiLSTM的情感分类算法模型。本文将Attention和BiLSTM长短时记忆神经网络模型结合,.设计双层注意力机制分别训练单词和句子的权重,并通过调整超参数优化模型。设计了多组对比实验,证明了 Multi-level Attention-BiLSTM算法模型添加了多层Attention机制后分类效果有所提升。3.研究了模型融合对微博评论文本情感分类的影响。为了解决情感分类任务中模型的泛化能力弱、准确度低等问题,采用集成学习模型融合的思想,将Multi-level Attention-BiLSTM算法模型与XGBoost、Bayes、LSTM、BiLSTM这五种分类器通过bagging的方式进行融合,并应用到微博评论文本情感分类中,通过实验验证模型融合的可行性和有效性。
其他文献
随着对网络服务需求的爆发式增长,光纤通信正朝着超高速、大容量、长距离的方向快速发展。数字相干光传输技术的应用使系统传输容量和传输距离得以提升,传输过程中的线性损伤如色度色散、偏振模色散等都可以通过接收机数字信号处理算法有效补偿,但是光纤非线性效应损伤还不能被低复杂度地有效补偿。同时,随着高谱效的高阶调制格式被越来越多的使用,需要更高的光信噪比保证信号质量,因此需要更高的入纤功率,但是这样会导致严重