论文部分内容阅读
微博的快速发展使其平台积累了大量的文本,其中蕴含着大量的有价值的信息,包括商业信息、社交网络和用户观点与情感等。微博的短文本特征使其文本分析具有一定挑战性,并且中文文本固有的特征使得文本分析性能下降。针对上述特征,本文应用半监督学习对微博文本进行情感分类:结合语言资源和标注集合对文本情感分类器进行训练和优化。情感分类包括两个任务:识别情感的极性,如正性、负性;识别情感类别:如高兴、愤怒。本文主要工作如下:1)微博信息抽取。应用微博运营商提供的API,对微博信息进行采集,以热门话题和认证用户为入口,采集话题相关的微博和用户微博及其评论文本。2)半监督学习。结合已有的标注集,运用主动学习标注微博文本的情感极性和类别,以减少标注成本。应用标注数据集于监督学习中,包括最大熵、神经网络和支持向量机模型,对不同监督学习模型进行优化,分析其误差和学习曲线。3)特征抽取。使用已有语言资源和开源软件,如情感词汇本体和同义词词林进行特征抽取,基本特征包括文本所固有的词项、词性和词林编码等。此外,鉴于文本特征空间维度较大,采用PCA对特征空间进行降维。在模型优化过程中,对比了不同特征空间组合和模型的准确度。部分的特征抽取过程,如自然语言处理、以及微博信息处理运行在分布式计算框架上,以提高算法的运行效率。情感极性分析的准确率达到0.7,具有一定的应用价值。而多类别情感分析准确度相对较低,为0.34:由于标注语料不充分和文本情感表达的复杂性,频率较高的类别,如喜欢、厌恶,分类效果较好,而惊奇、恐惧等分类效果不佳。情感分析结果可作用于舆情监测、市场调研和社会计算等方面,具有一定的商业价值。在其分析的基础上,可结合在线网络的结构和时序进行信息传播和受众分析,获得用户的行为模式和规律。结合用户特征,可进一步获得用户在发布信息等行为时的真实情感与心理状态,称之为情感计算,也是情感分析的最终目的。