论文部分内容阅读
舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。最直接、最快速地反映了社会各个层面的舆情状况与发展态势,对社会产生的影响面和影响力越来越大。政府及相关管理者亟需对处于“未然态”的舆情信息进行挖掘与分析,把握网络舆情动态,针对网络舆情资源进行资源的倾向性判断和区分并及时做出反应,这对提高处置网络突发事件的能力和监管能力有非常重要的意义。舆情分析涉及到的技术非常多,而核心是文本倾向性分析技术。文本倾向性分析技术就是用户关于某个事物的看法或评论文本的分析,从而判断该看法或评论是属于对该事物的积极或消极意见。它在商业网络舆情分析、产品评论分析上有着广泛的应用前景。
目前两类主流的文本倾向性分析方法(即基于语义规则的文本倾向性分析方法和基于统计的文本倾向性分析方法)都是仅仅将文档看作是词或语义模式的集合,然后查找或计算所有这些词汇或语义模式的倾向性值,最后将所有倾向性值累加得到整个待判断评论性文档的文本倾向性值。这两种方法在分析的过程中往往因语义和语境信息不足等因素导致文本倾向性分析结果存在片面性和孤立性等问题。
针对当前文本倾向性分析方法的不足,在对当前网络舆情分析研究现状进行调查和研究的基础上,本文提出了一种基于情感Ontology的文本倾向性分析方法。首先基于《知网( Hownet)》从网络舆情资源中抽取能够表达资源倾向性的概念,并定义好这些概念与概念之间的关系(递进、转折关系等)构建情感Ontology。构建情感Ontology是为了更充分的表达情感词汇之间所蕴含的语义信息,这包含词汇的情感倾向性以及词汇间的相似、递进和转折关系等,从而为文本的倾向性分析提供有效的语义和语境分析依据。其次基于构建好的情感Ontology和《知网》对网络舆情资源中的每一个词汇进行极性计算。然后利用情感Ontology中定义好的概念与概念之间的关系,对已经计算好的每一个词汇的极性进行调整,以提高整个文本倾向性分析的正确率。最后再利用SVM机器学习方法对网络舆情资源进行分类。通过网络舆情语料的真实测试后本方法取得了较好的召回率和准确率。