基于评论数据的层次文本情感分类研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:qq1083832688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着电子商务的飞速发展使得越来越多的网络用户习惯在网络上发表自己对于某一事物的意见与评论,对这些评论所包含的情感倾向进行分析与判别可以创造巨大的商业与社会价值,用户评论的文本情感分类已成为自然语言处理领域的研究热点之一。然而在面对海量数据稀疏、样本分布不均匀评论数据时,仅仅依靠人工处理已无法满足需求,传统文本情感分类方法具有准确率不高、粒度不够细致等问题。为了解决以上问题,本文针对评论文本数据,主要研究层次文本情感分类,即挖掘对象的某一方面的某个属性其潜在情感倾向。将该问题分解为单标记情感分析和多标记情感分析两个子任务:首先设计实现了层次文本分类技术,构建了类别自动标注系统,其次提出一种循环卷积注意力模型用于情感分析,最后在SemEval数据集上进行了测试,因此本文主要研究内容可以总结为以下三点:(1)层次文本分类方法研究。本文分别从文本分类、情感分析两大数据集对多种模型进行实验分析。对CNN,LSTM,Attention三种主流模型方法的优劣进行对比分析,发现利用CNN的擅长于局部特征的抽取;LSTM可以建模文本的长距离依赖,进而有效编码上下文信息;Attention能够通过加权对特征进行有效融合。为后续模型融合做了充足的前期工作基础。(2)基于LCA的多标记文本情感分析。针对层次文本情感分类中的单标记和多标记问题,提出了一种基于循环卷积注意力模型的文本情感分类方法LCA。我们利用LSTM对整个序列建模,捕获长期依赖关系;利用CNN的局部特征抽取能力,对上下文表示信息中重要的局部信息进行抽取。通过对CNN层的池化特征和注意力的融合特征进行拼接,最后通过softmax函数进行情感预测。在两个单标记数据集上的实验结果都得到与当前前沿模型相当的F1指标达到82.1%,在两个多标记数据集上的实验发现模型在小数据集上接近于基准模型,大数据集上F1超过前沿模型,达到78.38%。实验结果表明,该方法优于传统方法,可有效提高情感分类的准确度。(3)层次情感分析系统构建。本文将LCA模型的结果进行可视化分析,构建了层次文本情感分类系统,从可视化的角度对多个类别标记进行展示。
其他文献
我国是具有悠久历史文化的文明古国,先后历经八十多个王朝,考古学家可以根据各个历史时期遗留下来的文物对该时期的经济文化进行研究考证。辽金时期人们崇尚信奉佛教,将佛教
作为特种工程塑料之一,聚酰亚胺由于其优异的热稳定性、突出的机械强度、良好的介电性能、优异的尺寸稳定性和阻燃性等而备受人们的青睐。芳香族聚酰亚胺由于其优异的热稳定
肿瘤转移作为癌症患者最大的敌人,在基础及临床研究领域始终是热点之一。近来研究表明,新生血管在肿瘤转移的过程中起到了至关重要的作用:肿瘤组织由于肆意生长而需要大量的
逆合成孔径雷达(ISAR)成像是一种重要的动目标高分辨成像技术,被广泛应用在军事和民用领域。随着目标自动识别技术的发展,ISAR获取的高分辨图像往往作为识别系统的输入,用于
为完成多种不同类型的任务,研究人员创建出该相关知识领域的知识库,然而,不同知识库中的数据,表现出结构松散、多源异构的特点。为解决此问题,研究人员开始针对特定领域,创建
随着经济的飞速发展,私家车数量的逐年攀升导致了城市道路容量接近饱和状态,随之而来的交通拥堵问题也成了城市道路的一种亟待解决的问题。解决交通拥堵问题,完成道路交通的
随着移动通信的飞速发展,移动网络中接入的智能设备数量与日俱增,对于网络承载能力和容量的要求也越来越高。各种服务和移动应用对于实时性的高要求,使得移动数据网络面临着
目前,我国的尾矿难以得到综合利用,利用率仅有7%,其中的大量有用元素被浪费,难以得到有效循环使用。由于鞍山地区的尾矿中硅含量和铁含量比较高,利用铁尾矿制备尾矿微晶玻璃,
随着现代科技的不断发展,显微设备以其超高分辨率在人类认识微观世界中发挥了巨大作用。然而,在图像采集与记录过程中,由于设备暗电流、样品物理性质以及操作人员的主观判断
精准农业是一种现代化农业理念,能够提高生产、减少投入,实现农产量的最大化、资源利用的合理化、环境污染的最小化,从而达到改善传统农业缺点的目的。无线传感器网络是实现