论文部分内容阅读
微博平台能够提供海量数据,且数据更新速度较快,吸引了大批研究人员对微博进行研究,基于文本的情感分析技术在微博平台中的研究成果更是层出不穷。但在中文情感分析领域中,权威、优质的已标记中文数据集较少,导致对中文文本情感倾向判断不准确。另外,大多数研究往往只通过文本数据中的事件和观点来预测用户情感,而忽略了用户的情绪因素,影响了情感分析效果。由于已标注的权威中文数据集相对较少,能够提取并分析的文本信息少,预测准确率也随之变低,论文提出了语料库扩展的情感分类算法(Data Expansion Sentiment Analysis,DESA)。DESA算法首先通过情感词词典、同义词词典和反义词词典进行语料库扩展。在语料库扩展过程中,对于积极和消极数据,按照反义词词典替换情感词;对于中立数据,按照同义词词典替换情感词,构造扩展语料库文本。然后对已扩展的微博语料库进行分类处理,预测原始语料库的情感极性。实验证明通过使用已扩展的微博语料库,情感分类技术的准确率得到了提高。传统文本情感分析技术只分析了微博语料库的文本中的事件和观点,并未考虑文本中所包含的用户情绪状态。论文提出基于情绪的文本分类算法(Emotion Text Classification,ETC),ETC算法首先获取中文情绪词典,对微博语料库文本中紧张词和放松词进行检测,然后提取文本的紧张强度和放松强度作为新的情感特征,并结合DESA算法的分类结果,共同预测原始语料库的情感极性。实验证明,ETC算法的分类效果更准确。