论文部分内容阅读
近年来,随着Web2.0的发展和移动便携式设备的普及,脸书、微信等在线社交网络如雨后春笋般兴起,它的发展使得网络世界向现实世界的无限靠近成为可能,其中微博类应用(如新浪微博、Twitter等)的使用率遥遥领先。在线社交网络中,用户可以管理他们的社交网络和社交身份,发布各种话题信息,也可以通过好友关系获取其他用户发布的信息。由此产生的大量文本数据吸引着越来越多的学者对其展开研究,文本情感分析成为社交网络数据分析的热点,在学术领域、社会领域和商业领域都有着重要的应用价值。但目前的社交网络情感分析多只针对文本进行分析且假设文本是独立同分布的,忽略了社交网络中其他信息对于情感分析的影响。针对此问题,本文以真实的在线社交网络数据为研究对象,结合社会学、心理学的基本理论,利用在线社交网络的基本性质,由浅入深地对社交网络中的文本情感分析展开研究。本文的主要研究工作包括以下四个部分:
首先,针对传统微博情感分析方法假设文本独立同分布且忽略微博间的关系,造成情感分析结果不理想的问题,提出一种基于用户结构相似度和话题上下文的情感分析方法。该方法利用用户结构相似度考虑共同朋友关系(二度关系)对情感分析潜在的影响,并对其进行形式化表示;考虑到微博文本内容的多样性,引入微博的话题上下文来表示微博间的语义关系,同样对其进行形式化表示。在此基础上,将用户结构相似度和话题上下文统一表示为社交上下文,结合微博文本特征分类器,建立新的微博情感分析模型。广泛的实验和统计学分析结果表明,该方法能够在微博情感分析上取得超越传统方法的准确率。
其次,针对传统情感分析方法对微博间广泛存在的异构关系提取不充分,影响情感分析准确率的问题,提出了一种基于微博弱依赖关系的情感分析方法。根据社交网络同质性理论,社区结构是社交网络中广泛存在的一个特征,社区中的节点经常共享某些性质。基于此,该方法假设社交网络的社区结构与微博情感倾向之间存在关联关系,并对该关联性进行统计学上的验证。该方法首先根据用户上下文、用户关系上下文建立微博关系图,然后利用社交网络的集群性质,使用社区发现算法提取微博间的弱依赖关系,同用户上下文、用户关系上下文一起进行形式化表示,最后结合微博的文本特征分析其情感。在两个真实数据集上的实验结果表明,该方法在情感分析上有着良好的准确率。
再次,针对少数利用社交上下文的微博情感分析方法多基于最小二乘法等传统机器学习,只能在模型训练阶段利用社交上下文,且不能挖掘文本和社交上下文深层特征的问题,提出一种基于社交上下文表示学习的微博情感分析方法。该方法根据情感一致性和情绪感染性理论建立微博关系图,利用深度学习算法将该图中的节点映射到连续分布的低维实数向量空间中,以求能够挖掘出微博关系的深层信息。建立一个基于长短期记忆网络的神经网络模型,微博社交上下文向量在此模型中可以参与到不同信息的计算中,从而保证对社交上下文信息的最大化利用。此外还引入了注意力机制处理情感分析中不同的词语贡献不同的情况。三个真实数据集上的实验结果表明该方法在情感分析上具有良好的准确率、精度及F1-score值。
最后,对社交网络情感分析的重要应用之一——突发事件发现进行了研究。针对现有的突发事件发现方法存在准确率和效率较低的问题,提出一种基于情感同现图和标签提取的突发事件发现方法。该方法首先离线构建一个基于Plutchik情感轮定义情感类型的情感同现图。与传统的情感二分类、三分类方法不同的是,利用情感同现图可以实现对微博数据流细粒度的、无监督的情感分析,从而将微博数据流划分为不同的、微博数量相对较小的情感数据流。然后,在得到的情感数据流上进行突发状态检测,并提取突发期内的话题标签。最后,对话题标签进行分词,获取突发事件候选词,选择情感数据流中与事件候选词相关性较高的词语及突发事件候选词作为描述突发事件的关键词。在检测出突发事件的同时,该方法还能分析出社交网络用户对于突发事件的情感倾向。实验结果表明该方法的准确率高,识别突发事件时间短。
首先,针对传统微博情感分析方法假设文本独立同分布且忽略微博间的关系,造成情感分析结果不理想的问题,提出一种基于用户结构相似度和话题上下文的情感分析方法。该方法利用用户结构相似度考虑共同朋友关系(二度关系)对情感分析潜在的影响,并对其进行形式化表示;考虑到微博文本内容的多样性,引入微博的话题上下文来表示微博间的语义关系,同样对其进行形式化表示。在此基础上,将用户结构相似度和话题上下文统一表示为社交上下文,结合微博文本特征分类器,建立新的微博情感分析模型。广泛的实验和统计学分析结果表明,该方法能够在微博情感分析上取得超越传统方法的准确率。
其次,针对传统情感分析方法对微博间广泛存在的异构关系提取不充分,影响情感分析准确率的问题,提出了一种基于微博弱依赖关系的情感分析方法。根据社交网络同质性理论,社区结构是社交网络中广泛存在的一个特征,社区中的节点经常共享某些性质。基于此,该方法假设社交网络的社区结构与微博情感倾向之间存在关联关系,并对该关联性进行统计学上的验证。该方法首先根据用户上下文、用户关系上下文建立微博关系图,然后利用社交网络的集群性质,使用社区发现算法提取微博间的弱依赖关系,同用户上下文、用户关系上下文一起进行形式化表示,最后结合微博的文本特征分析其情感。在两个真实数据集上的实验结果表明,该方法在情感分析上有着良好的准确率。
再次,针对少数利用社交上下文的微博情感分析方法多基于最小二乘法等传统机器学习,只能在模型训练阶段利用社交上下文,且不能挖掘文本和社交上下文深层特征的问题,提出一种基于社交上下文表示学习的微博情感分析方法。该方法根据情感一致性和情绪感染性理论建立微博关系图,利用深度学习算法将该图中的节点映射到连续分布的低维实数向量空间中,以求能够挖掘出微博关系的深层信息。建立一个基于长短期记忆网络的神经网络模型,微博社交上下文向量在此模型中可以参与到不同信息的计算中,从而保证对社交上下文信息的最大化利用。此外还引入了注意力机制处理情感分析中不同的词语贡献不同的情况。三个真实数据集上的实验结果表明该方法在情感分析上具有良好的准确率、精度及F1-score值。
最后,对社交网络情感分析的重要应用之一——突发事件发现进行了研究。针对现有的突发事件发现方法存在准确率和效率较低的问题,提出一种基于情感同现图和标签提取的突发事件发现方法。该方法首先离线构建一个基于Plutchik情感轮定义情感类型的情感同现图。与传统的情感二分类、三分类方法不同的是,利用情感同现图可以实现对微博数据流细粒度的、无监督的情感分析,从而将微博数据流划分为不同的、微博数量相对较小的情感数据流。然后,在得到的情感数据流上进行突发状态检测,并提取突发期内的话题标签。最后,对话题标签进行分词,获取突发事件候选词,选择情感数据流中与事件候选词相关性较高的词语及突发事件候选词作为描述突发事件的关键词。在检测出突发事件的同时,该方法还能分析出社交网络用户对于突发事件的情感倾向。实验结果表明该方法的准确率高,识别突发事件时间短。