【摘 要】
:
情感分析(Sentiment Analysis)是从语言文本入手分析人们的观点、评价、态度和情绪的研究领域。实体级别的情感分析(Aspect Based Sentiment Analysis)是情感分析领域的最新
论文部分内容阅读
情感分析(Sentiment Analysis)是从语言文本入手分析人们的观点、评价、态度和情绪的研究领域。实体级别的情感分析(Aspect Based Sentiment Analysis)是情感分析领域的最新任务,其重点在于分析并识别文档中不同实体的情感极性以充分提取个性化数据的完整信息。实体级别的情感分析相较常见的文档级别的情感分析而言,不仅需要识别与提取带有情感色彩的词语或描述,更需要能准确的捕捉句子的语法信息来确定不同的实体对象和与其相关联的情感描述信息,因此具备了相当高的研究难度和研究价值。目前,面向实体级别的情感分析技术相对较少,主要分为基于人工规则的方法、基于传统机器学习的方法、基于深度学习的方法和基于大规模预训练语言模型的方法。其中,基于人工规则的方法非常依赖于人工专家的参与,也较难在不同的领域间进行迁移;基于传统机器学习的方法通常受限于分类器的参数数量限制,面对较为复杂的实体情感分析问题时面临瓶颈;基于深度学习的方法的计算代价和存储代价较大,且模型的效果通常受制于数据集的规模和多样性;基于大规模预训练语言模型的方法尽管精度很高,但它们需要在大规模的语料库中进行预训练,并迁移至特定的任务进行微调,模型的学习代价和存储代价极大,且运用模型进行推理判断时速度很慢。针对上述问题和现状,本文提出了基于实体聚类的多支持向量机模型来解决实体级别的情感分析问题。本文的方法考虑到具有相似实体对象的样本将对应类似的特征,因此提出将实体对象通过词向量表征,而后通过K-Means方法进行实体聚类以将原任务数据全集划分出多个不同的数据子集,同一个数据子集内的样本都具有一定的相似性。通过在特定的数据子集上提取实体相关的特征和实体无关的特征,可以有效地捕捉到潜在的实体类别信息和一般性的语义信息。本文还利用基于贝叶斯优化的自动学习技术优化支持向量机模型。详尽的实验表明本文提出的模型是一个计算和存储代价较小、情感极性判定准确、判定速度快的实体级别情感分析模型。
其他文献
人乳腺中存在多种经蛋白酶特异性切割的内源肽,这些内源肽可以更好的满足婴儿较弱的胃肠道消化作用也可能具有活性。对不同人乳中内源肽的组成分析是目前国内外一个活跃的研究领域,不仅有助于对婴儿胃肠道消化能力的促进和免疫系统的建立提供理论依据,对更贴近人乳的婴儿配方食品研发提供有益探索。本论文采用超滤法对人乳中的内源肽进行分离纯化,建立了一种利用LC-MS/MS技术研究人乳内源肽组成的方法,对不同泌乳期不同
光场相机作为一种新型的多视角成像设备,通过一次成像同时记录场景的空间信息和角度信息,能够获取多视角图像和重聚焦图像,提供了丰富的场景几何信息,在深度估计任务中具有独
指向分析是一种推测运行时变量引用的静态分析技术。需求驱动指向分析技术的提出一般用于一些时间或内存上受到严格限制的环境,比如即时编译器和交互式的开发环境。需求驱动指向分析中的一项具有挑战的工作是如何提高流敏感度,从而帮助得到感兴趣的变量的准确指向关系。这项工作存在挑战的原因是大型软件系统里存在较强的流与数据的依赖,导致在静态分析时很难识别出所有对目标变量的指向关系产生贡献的程序语句。本文提出一种需求
随着生活方式的改变,人们更加注重身体素质的提高,越来越多的女性喜欢上了健身。然而,不同于男性,女性在运动过程中需穿着运动文胸来防止乳房晃动,从而起到保护乳房的作用。
目的探讨原代海马神经元体外培养体系中VEGF浓度随时间的变化以及Sema3F对VEGF分泌的影响。方法选择新生24小时内的Wistar大鼠,提取海马进行原代培养,采用ELISA法分别测定培养至第1天、第3天、第5天、第7天、第9天的培养液中VEGF浓度;将最适终浓度的Sema3F加入培养至第3天的海马神经元培养基,分别于0分钟、5分钟、15分钟、30分钟测定VEGF浓度的变化。结果(1)新生大鼠海
无线传感器网络(WSN)作为物联网的核心技术,由于其低成本,低功耗和自组织,在各个领域得到广泛应用。然而,由于其成本限制,处理和计算能力弱,并且能量有限,如何使无线传感器网络在能量有限的情况下提高网络分组传输成功率并延长网络生命周期是设计媒体访问控制(MAC)协议时必须考虑的问题。MAC控制着无线信道的分配权,良好的MAC协议能够提升网络的吞吐量,减少能量损耗,降低延时。本文首先对轮询多址和随机多
近年来,民事案件的数量连连升高,且结案率也处于连年提升的状态,但是执行难的问题没有得到根本性的解决。更多的当事人对于民事案件确定的法律义务的不履行,造成了社会信用建设不完整,缺乏社会信用机制的情况下,公民个人对于个人信用状况也不予重视,因此,产生了一批失信被执行人。为了能够有效的解决执行难的问题,我国于2013年正式确立了失信被执行人名单信息制度。该制度的建立,对于执行难问题取得了突破性的成果。从
人群运动仿真是一种使用计算机来模拟现实生活中人群运动特征和行为的技术。通过建立虚拟世界场景,可以真实地模拟人群运动的过程。而随着计算机图形学技术的不断进步,人群模拟技术也在越来越多的领域内一展身手。如在游戏、电影动漫、虚拟现实等等应用中,都可以发现这项技术的身影。近年来,随着城市化进程的逐步开展、人口密度的持续增大,复杂的路况、地形等等都给公共安全带来了较多隐患。一旦发生紧急情况,就可能出现踩踏等
景观湖水草的种植密度对于水质的修复具有至关重要的影响,合理的种植可以更快速的修复被污染过的湖水,人工修剪生长过稀或者过密的水草费时费力,采用自动化器械处理水草方便
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种利用合成孔径原理,基于早期的真实孔径雷达技术发展出来的高分辨率成像雷达技术。由于SAR成像具有全天时、全天候、多波段、多极化、高分辨率等特性,被广泛应用于遥感侦察、地形测绘、目标监视及环境监测等领域。SAR成像探测距离远、穿透性强,是复杂背景下地面车辆监测的重要手段,SAR图像目标检测方法的研究具有重要意义。由于SAR图