基于互联网的情感词库扩展与优化研究

来源 :东北大学 | 被引量 : 6次 | 上传用户:lele3383
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络科技的发展,互联网已经成为一种重要的咨询工具,但是面对海量的互联网数据,如何快速准确的挖掘观点数据成为一种挑战,而观点数据对于政府、企业和个人均具有非常重要的价值。正是这样的挑战与需求推动了情感分析的研究与发展。情感分析分为词汇级、句子级和篇章级的情感分析,其中词汇级别的情感分析是重要基础,本文以词汇级别的情感分析作为研究重点,基于网络背景研究情感词库的扩展和优化。首先,在通用情感词抽取方面本文提出了基于网络语料的词汇情感分类的方法,将情感词的抽取转化为词汇的情感分类问题,通过分析情感词特征,利用最大熵分类器对情感词分类,定义正、负、客观三种情感类别;利用搜索引擎检索获取词汇无标注语料,从大量的语料中抽取丰富的词汇特征;通过实验选择词汇情感分类的最佳特征组合。实验表明,选择前后词作为特征对分类最有效,该特征选择方式实质上包括了修饰和搭配两种语言现象,在最佳特征组合下的情感分类性能达到了95.9%的正确率。其次,在领域情感词扩展和优化方面,分别研究了情感词搭配抽取和倾向性词串抽取两部分内容。在情感词搭配抽取部分,本文提出了互信息框架和模板框架两种抽取框架,包括三种抽取方法,分别是基于互信息的搭配抽取、基于字符串模板的搭配抽取和基于句法树模板的搭配抽取,实验表明在较小规模的语料中,基于模板框架的情感词搭配抽取方法更加有效。最后是倾向性词串的抽取。在目前的研究中,情感表达的基本元素通常是单词,但在研究网络产品评价情感倾向性分析中,发现部分评价句中的评价表达基本元素是一个词串,所以本文将倾向性词串抽取作为研究的重点内容之一。本文采用句法子树生成词串,然后利用C-value值对候选词串进行粒度筛选,并提出了基于句子内部情感元素互斥假设的排斥过滤法,利用该方法提纯倾向性词串,最后通过基于网络标注语料和搜索引擎检索两种方式判断词串的倾向性。并通过实验分析了各方法的有效性和优缺点。
其他文献
近年来,由于计算机技术迅速发展,越来越多的信息和资料开始摆脱传统的存储和展示媒介,向数字化的方式转变。其中,电信工程图纸作为指导电信工程施工,展示电信工程状况,保存电信工程
在当今这个信息化的社会,互联网在人们的生活和工作中起着越来越重要的作用。而利用网络进行的犯罪活动也日益增多,资料泄密和非法信息的传播就是其中的一种。电子邮件作为网络
随着Web2.0技术的发展,网络已经成为网民发表观点言论的重要渠道。如今,越来越多的网民在博客、论坛、评论互动和新闻组里发表他们关于社会时事和现象的态度和看法。而其中许
土地资源,是一种有限的资源,为人类提供粮食的土壤、安居的基础以及活动的依托。随着城市范围的扩大,越来越多的农用地、森林、荒地等被开发利用为城市中的建设用地,对土地开发利
21世纪科技日新月异,各种技术不断创新,大大改变了人们的生活方式。计算机的出现是一种变革性的社会进步,极大的推动了社会的发展。在此基础之上的各种应用技术的研究创新也
疲劳是人体的一种正常的生理活动,它是由于过度的脑力或体力劳动使人产生生理机能和心理机能的失调引起的,表现为瞌睡、精力不集中,同时人体的正常反应减慢。疲劳虽然是一种
逻辑系统在人工智能及计算机科学中有相当广泛的应用。人们不但利用它们来对知识进行表示和推理,还非常关心它们之间的表达能力关系。表达能力比较的标准并不唯一。一种经典
随着企业信息化的诞生,越来越多的企业加入到了信息化的行列中。PLM技术将企业产品开发的整个过程有效地集成起来,已经在越来越多的大中型企业中进行了实施,成为企业信息化的
三峡库区本是地质灾害多发地区,随着三峡工程的进展,更是加剧了库区滑坡、泥石流、地裂缝等地质灾害的发生频率。这些地质灾害对库区人民的生命和财产安全造成了严重的威胁,
人的造型和运动模拟被广泛应用于众多领域之中。在虚拟场景中的人一般是整个场景的主体,对其进行建模和运动模拟的效果直接决定了虚拟世界的真实感和用户的沉浸感。传统的人