情感Ontology构建及其网络舆情文本倾向性分析

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:phf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。最直接、最快速地反映了社会各个层面的舆情状况与发展态势,对社会产生的影响面和影响力越来越大。政府及相关管理者亟需对处于“未然态”的舆情信息进行挖掘与分析,把握网络舆情动态,针对网络舆情资源进行资源的倾向性判断和区分并及时做出反应,这对提高处置网络突发事件的能力和监管能力有非常重要的意义。舆情分析涉及到的技术非常多,而核心是文本倾向性分析技术。文本倾向性分析技术就是用户关于某个事物的看法或评论文本的分析,从而判断该看法或评论是属于对该事物的积极或消极意见。它在商业网络舆情分析、产品评论分析上有着广泛的应用前景。 目前两类主流的文本倾向性分析方法(即基于语义规则的文本倾向性分析方法和基于统计的文本倾向性分析方法)都是仅仅将文档看作是词或语义模式的集合,然后查找或计算所有这些词汇或语义模式的倾向性值,最后将所有倾向性值累加得到整个待判断评论性文档的文本倾向性值。这两种方法在分析的过程中往往因语义和语境信息不足等因素导致文本倾向性分析结果存在片面性和孤立性等问题。 针对当前文本倾向性分析方法的不足,在对当前网络舆情分析研究现状进行调查和研究的基础上,本文提出了一种基于情感Ontology的文本倾向性分析方法。首先基于《知网( Hownet)》从网络舆情资源中抽取能够表达资源倾向性的概念,并定义好这些概念与概念之间的关系(递进、转折关系等)构建情感Ontology。构建情感Ontology是为了更充分的表达情感词汇之间所蕴含的语义信息,这包含词汇的情感倾向性以及词汇间的相似、递进和转折关系等,从而为文本的倾向性分析提供有效的语义和语境分析依据。其次基于构建好的情感Ontology和《知网》对网络舆情资源中的每一个词汇进行极性计算。然后利用情感Ontology中定义好的概念与概念之间的关系,对已经计算好的每一个词汇的极性进行调整,以提高整个文本倾向性分析的正确率。最后再利用SVM机器学习方法对网络舆情资源进行分类。通过网络舆情语料的真实测试后本方法取得了较好的召回率和准确率。
其他文献
近年来随着多媒体技术、计算机技术和网络技术的不断发展,使视频的实时传输得到了广泛的应用。视频实时传输中庞大的数据量、对实时性的高要求和目前的网络带宽不足之间的矛
基于描述逻辑的本体是构建下一代互联网——语义Web的重要基础。本体语言使用含有语义的元数据对分布的网络资源进行描述,并利用描述逻辑提供的推理工具,作为知识共享的媒介,使
对于自然界中的任何物体,纹理都可以描述其表面错综复杂的细节。纹理合成技术是根据已有的纹理信息,合成与其相似的大面积纹理。该技术近年来受到了越来越多的关注,目前已成为图
虚拟现实技术作为一项在二十世纪末兴起的一种崭新的信息技术,在许多领域有着广泛的应用和良好的发展前景。目前,很多高校都对虚拟现实技术做了研究,但是在模型的复杂度、真实感
软件从它诞生之日起,就受到各种各样潜在软件故障的折磨。随着软件实现功能越来越多也越来越强大,其携带的潜在的故障也越多,随之也带来更多的安全性问题,如果这些潜在的故障一旦
随着计算机网络技术的飞速发展和企业对网络技术应用的不断增多,局域网内部安全问题已成为人们越来越关注的一个问题,而局域网内部安全问题的根本,是主机的文件及进程的安全问题
软件可信性问题是可信计算领域的研究分支之一,也是近年来研究的重要焦点。软件的“可信”是指软件系统的动态行为及其结果总是符合人们的预期,在受到干扰时仍能提供连续的服务
脱机手写体汉字识别目前仍然是模式识别中最困难的问题之一,因而也是手写中文信息化的主要障碍之一,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的
极大数据集是指数据量巨大,以致于计算机内存不能全部容纳的数据集;极小数据集是指由于实验条件和实验代价等限制,导致获得的珍贵数据资源比较少的数据集。本文对极大或极小
随着Internet的不断发展,在网络发展中发挥重要作用的IPv4协议越来越显示出它的局限性,如IP地址短缺、路由表膨胀、安全问题和服务质量等问题。为了解决IPv4存在的问题,IETF研究