论文部分内容阅读
近年来随着电子商务的飞速发展使得越来越多的网络用户习惯在网络上发表自己对于某一事物的意见与评论,对这些评论所包含的情感倾向进行分析与判别可以创造巨大的商业与社会价值,用户评论的文本情感分类已成为自然语言处理领域的研究热点之一。然而在面对海量数据稀疏、样本分布不均匀评论数据时,仅仅依靠人工处理已无法满足需求,传统文本情感分类方法具有准确率不高、粒度不够细致等问题。为了解决以上问题,本文针对评论文本数据,主要研究层次文本情感分类,即挖掘对象的某一方面的某个属性其潜在情感倾向。将该问题分解为单标记情感分析和多标记情感分析两个子任务:首先设计实现了层次文本分类技术,构建了类别自动标注系统,其次提出一种循环卷积注意力模型用于情感分析,最后在SemEval数据集上进行了测试,因此本文主要研究内容可以总结为以下三点:(1)层次文本分类方法研究。本文分别从文本分类、情感分析两大数据集对多种模型进行实验分析。对CNN,LSTM,Attention三种主流模型方法的优劣进行对比分析,发现利用CNN的擅长于局部特征的抽取;LSTM可以建模文本的长距离依赖,进而有效编码上下文信息;Attention能够通过加权对特征进行有效融合。为后续模型融合做了充足的前期工作基础。(2)基于LCA的多标记文本情感分析。针对层次文本情感分类中的单标记和多标记问题,提出了一种基于循环卷积注意力模型的文本情感分类方法LCA。我们利用LSTM对整个序列建模,捕获长期依赖关系;利用CNN的局部特征抽取能力,对上下文表示信息中重要的局部信息进行抽取。通过对CNN层的池化特征和注意力的融合特征进行拼接,最后通过softmax函数进行情感预测。在两个单标记数据集上的实验结果都得到与当前前沿模型相当的F1指标达到82.1%,在两个多标记数据集上的实验发现模型在小数据集上接近于基准模型,大数据集上F1超过前沿模型,达到78.38%。实验结果表明,该方法优于传统方法,可有效提高情感分类的准确度。(3)层次情感分析系统构建。本文将LCA模型的结果进行可视化分析,构建了层次文本情感分类系统,从可视化的角度对多个类别标记进行展示。