基于表示学习的中文微博情绪分类研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:aaajansen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的兴起使其成为个人情绪表达的重要虚拟场所,微博上产生了大量富有情绪的内容。对微博进行情绪分析,可以了解到社会舆情、情绪倾向等,针对社交短文本的情绪分析不断受到相关研究人员的关注。与此同时,情绪分析和情感分析有所不同,情绪分析是针对情绪主体的细粒度情绪分类问题,情感分析是针对特定对象表达的观点的正向、负向倾向进行分类。  与传统文本分类不同,微博中情绪的表述更加随意,也更加复杂,带有强烈的主观情绪倾向。由于微博语言的口语化、不规范性,以及情绪表达本身的复杂性等特点,使得针对微博的情绪分析面临各种难题。  在基于机器学习的情绪分类中,词和文本的表示是关键。传统方法主要基于One-Hot的词表示方法和基于Bag-of-Words的文本表示方法,不能很好适应情绪分类的复杂性。  针对情绪分类问题的复杂性和传统方法的不足,本文从词表示学习和文本表示学习角度进行深入研究。我们的基本思路是充分利用情绪标注信息、未标注语料等外部资源;同时充分深入挖掘文本内部中蕴含的丰富信息,如词序,甚至词内部结构信息。本文的主要贡献如下:  (1)本文利用大规模未标注数据学习词的低维稠密实数向量表示(即词向量),以反映词的语义信息。在词向量学习中,除了探索分析流行的word2vec方法,还提出了基于深度特征学习(限制玻尔兹曼机和自动编码器)的词向量学习方法。  (2)提出融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签等信息,以丰富词向量的情绪语义,并适应微博情绪表达的不规范问题。  (3)将深度学习应用到情绪分类中,利用深度学习对复杂情绪表达进行抽取和建模。本文设计了一个基于卷积神经网络(CNN)的情绪分类框架,该框架以词向量作为输入,利用CNN学习文本的表示反映文本中的复杂情绪表达,最终输出情绪类别。同时,利用深度信念网将其他方法(如卷积神经网络)学到的文本表示进一步提炼,提高情绪分类的效果和可靠性。
其他文献
随着现代医疗技术的发展,利用光学原理,无创的脉搏和血氧饱和度检测技术成为监控心血管系统生理状况的重要方法。脉搏血氧仪在临床医疗、老年人和新生儿监护等方面得到广泛应用
视频中广泛地存在着大量的空间冗余和时间冗余,如何消除这些冗余是视频压缩编码研究的重要内容。视频中空间冗余和时间冗余的存在使得视频信号用低秩矩阵的模型来表示成为可能
由于信息技术和网络的发展,通过网络实时上课、做实验已经成为可能。而通信原理实验课程由于真实通信设备昂贵、折旧快、维护费用高,一般采用仿真软件来代替真实实验设备,所
随着计算机应用的范围越来越广,处理问题的规模越来越大,计算机硬件得到了迅速发展,近年来已经进入到多核体系结构、个人高性能计算机、千万亿次并行机的发展阶段。为了适应迅速
目前,政务信息化和企业信息化进入“后建设时代”,基础设施和核心应用系统的建设基本告一段落,IT运维成为了与系统建设并重的一项关键工作。业务服务管理是IT运维管理的高级阶段
在雾、霾等天气条件下,由于大气粒子散射和吸收作用,所获取图像的颜色以及对比度、饱和度严重下降,严重影响户外视觉系统的正常运行以及人们的出行。此外,计算机视觉领域中的诸多
现如今实时数据库(RTDB)已获得越来越广泛的应用,实时数据库必须保持数据对象的一致性约束和保证每一个请求到达系统所规定的时间限制。随着系统存储的数据量越来越大,复杂性
1394B协议是在基于1394A协议的基础上,对速度和技术进行了提升的新一代火线协议,其发展趋势是向军事领域发展,将作为新一代军事领域实验室平台搭建的基础协议。新一代1394B协
单篇科研文献文档摘要自动生成在信息检索中具有重要意义,可以为大规模信息检索提供简要信息提示。无监督抽取式摘要生成是文本摘要研究的重要任务,旨在从原文中依据各种文本语
应用程序对计算机硬件特别是处理器的性能要求越来越高,尽管32位处理器还在使用,但64位处理器已经越来越多的受到人们的关注。相对于32位处理器,64位处理器能直接进行64位的整点