论文部分内容阅读
随着互联网的迅猛发展,网络中的评论信息越来越多的受到人们的关注,加快了文本褒贬倾向性分析的脚步。本文主要针对中文句子级别的褒贬倾向性分析做了以下工作:
1.建立了绝对情感词词典和相对情感词词典,对相对情感词词典通过算法判断了情感词的情感倾向性。
2.应用CRFs模型抽取了领域相关的产品的评价对象和评价词,通过本文提出的算法,引入已标领域相关语料,判断了评价词的情感倾向性,构建了领域情感词词典,同时识别了评价对象和评价词的二元词组,并对评价对象和评价词的词组的情感倾向性进行了计算,构建了领域评价对象情感词词典。
3.应用领域评价对象情感词词典中的词组的情感倾向性替换了独立情感词的情感倾向性,融合多个情感词词典,提出了中文句子级别褒贬情感倾向性分类算法。
本文对所设计的算法的正确性和实用性进行了汽车论坛评价语料、旅馆论坛评价语料和笔记本论坛评价语料三个领域的实验,结果表明,本文提出的算法在每一个实验的语料集合上都取得了较高的准确率和较好的召回率,从而证明了通用情感词词典的细分和引入领域情感词词典和领域评价对象情感词词典这些方法,随着情感语义信息的增加,配合合适的算法,会在褒贬分析中起着非常重要的作用。