论文部分内容阅读
微博的兴起使其成为个人情绪表达的重要虚拟场所,微博上产生了大量富有情绪的内容。对微博进行情绪分析,可以了解到社会舆情、情绪倾向等,针对社交短文本的情绪分析不断受到相关研究人员的关注。与此同时,情绪分析和情感分析有所不同,情绪分析是针对情绪主体的细粒度情绪分类问题,情感分析是针对特定对象表达的观点的正向、负向倾向进行分类。 与传统文本分类不同,微博中情绪的表述更加随意,也更加复杂,带有强烈的主观情绪倾向。由于微博语言的口语化、不规范性,以及情绪表达本身的复杂性等特点,使得针对微博的情绪分析面临各种难题。 在基于机器学习的情绪分类中,词和文本的表示是关键。传统方法主要基于One-Hot的词表示方法和基于Bag-of-Words的文本表示方法,不能很好适应情绪分类的复杂性。 针对情绪分类问题的复杂性和传统方法的不足,本文从词表示学习和文本表示学习角度进行深入研究。我们的基本思路是充分利用情绪标注信息、未标注语料等外部资源;同时充分深入挖掘文本内部中蕴含的丰富信息,如词序,甚至词内部结构信息。本文的主要贡献如下: (1)本文利用大规模未标注数据学习词的低维稠密实数向量表示(即词向量),以反映词的语义信息。在词向量学习中,除了探索分析流行的word2vec方法,还提出了基于深度特征学习(限制玻尔兹曼机和自动编码器)的词向量学习方法。 (2)提出融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签等信息,以丰富词向量的情绪语义,并适应微博情绪表达的不规范问题。 (3)将深度学习应用到情绪分类中,利用深度学习对复杂情绪表达进行抽取和建模。本文设计了一个基于卷积神经网络(CNN)的情绪分类框架,该框架以词向量作为输入,利用CNN学习文本的表示反映文本中的复杂情绪表达,最终输出情绪类别。同时,利用深度信念网将其他方法(如卷积神经网络)学到的文本表示进一步提炼,提高情绪分类的效果和可靠性。