论文部分内容阅读
文本情感倾向性研究是自然语言处理中的一个重要研究方向。随着web技术的发展,社交网络日趋发达。目前,随着用户量和数据量的不断增长,微博已成为主流的社交平台。微博文本倾向性分析评测已连续多年成为中文倾向性分析评测的重点。情感倾向分析在舆情分析、情报挖掘、电子商务、精准营销等方面有广泛应用。针对海量数据处理问题,引进当今流行的分布式处理技术进行文本情感分析研究可解决单机计算资源瓶颈,并使得算法具有可扩展性。本文在现有研究基础上进行总结,对网络用户情感倾向分析进行进一步研究,主要工作如下:第一,本文基于现有情感空间建模研究,探索用户情感特征建模方法,结合用户个性特征改进用户情感特征建模方式,给出具体特征量化方法。基于建模算法对网络用户实例进行分析,实验证明该模型在一定程度上能够拟合用户情感特征。第二,基于改进词典和SVM进行微博文本情感分析。现有基于词典的情感分析对词典依赖性较大,而传统词典覆盖面窄,内容陈旧,用在频繁使用网络用语和表情符号的微博文本情感分析上效果并不理想。改进词典的引入提高了词典对微博文本的覆盖率,在基于词典的微博文本情感分析中能取得较好效果。另外,基于word2vect模型的SVM情感分类器在与朴素贝叶斯分类器分析结果的对比中表现较为理想,整体分类效果也优于基于词典的情感分类。第三,基于spark的分布式情感分析系统的研究与实现。在以spark为核心的分布式计算框架支持下,依据文中提出的用户情感特征建模方法和基于word2vect的SVM分类算法设计分布式算法。设计一个包含数据获取,数据缓存,数据分析,结果存储和可视化五个部分的分布式情感分析系统,从需求分析,系统设计,系统实现,系统测试等方面进行阐述。本文给出算法流程和系统的关键设计、实现方法,利用开源工具进行算法开发和系统实现。通过实验对比算法效果,验证了其有效性。通过测试对本文系统性能进行了评估并给出详细测试结果。