基于句法分析的产品评论挖掘研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:suibianlaila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在web 2.O技术的推动下,电子商务蓬勃发展使得网上购物成为当今人们生活的一种时尚,人们在购买商品的同时在网络上发表商品评论。用户评论作为用户体验的反馈信息,越来越被人们所重视,如何分析理解用户评论信息成为当前web挖掘的重要课题。产品评论挖掘就是观点挖掘技术在产品评论分析中应用,通过对产品评论文本的情感分析,比较产品之间的优劣差异。一些学者已经对产品评论挖掘进行了研究,虽然已经解决极性分类的问题,却没有进一步对产品特征的信息进行挖掘,同时由于没有从语义层次进行解析,对语义中的否定句和比较句极性处理存在着较大误差,针对以上问题,本文提出了新的基于句法分析的产品评论挖掘系统。本文简述了观点挖掘的概念和关键技术,设计观点挖掘系统的基本框架,首先针对产品评论语言的动态性和奇异性的特点,总结了网络中的非正规化语言中带有极性色彩的词语和符号,在构建极性词典时加入了非正规化语言极性词,提高了对网络语言的适应性,其次在分析了词语出现频率和极性色彩的相关性,计算极性强度方面使用了词频逆向文档频率方法进行归一化处理,提高了极性分析科学性和合理性。然后在句法分析中基于观点评论的四要素,提出了观点挖掘句式分析树形结构模型,使用标点符号和关联词作为划分标识对评论文本进行句式分割,将复句划分为单句形式;针对中文句中的否定句提出使用否定词典划分的方法处理语义变化,减小词语的维度,提高解析速度;同时在处理比较句时采用分析比较关系主体的位置和比较词极性的方法,判断比较句的极性。最后在SO-PMI算法的基础上,提出了自下而上的基于句法分析的产品评论挖掘SP-PMI算法,通过对评论文本的句式分割,提取观点要素得到单句中的特征信息,通过从特征层次的分析,得到产品的综合极性评估。在以上算法的基础上,构建了产品评论特征挖掘系统,经过实验验证该算法有效的提高了原SO-PMI的查准率,特别是对比较句的极性分析查全率和查准率提高了近13%,说明采用句法分析的方法比基于统计的分类方法具有更高的准确率。同时特征挖掘系统也对同类产品的特征进行比较,分析了相同档次产品间的特征差异和不同档次产品间的特征差异,具有一定的企业实用价值。
其他文献
由于工区中采集的井点数据比较少,应用一些常规插值方法,如反距离加权法,插值效果不理想。本文采用普通克里金估计技术进行插值,取得较好效果。普通克里金只使用了井点数据,而工区
人脸识别技术作为一种被广泛接受的生物特征识别技术,具有重要的理论价值和广阔的应用前景。经过几十年的发展,人脸识别技术取得了长足的进展。大量的性能评测与学术研究表明,在
地球上的水处于不断地循环之中,水在不同阶段的循环过程便构成了大气水循环。土壤蒸发是大气水循环中十分重要的一个环节,它涉及到土壤水运动(如入渗、壤中流等)、能量平衡、
物联网是一种可以将任何商品与互联网连接起来,按约定的协议进行信息交换,实现智能化识别、定位、跟踪、监控和管理的一种网络。物联网中的信息流通能够通过对商品的唯一标识
随着现代社会的信息化,身份识别及验证已经引起了广泛的研究热潮。一个人的身份识别及验证包括多种手段,例如指纹识别,瞳孔识别,印章识别及本文的研究方向签名识别。其中,签
三维数据场的体绘制技术是科学计算可视化的重要内容。将三维数据场的体绘制技术应用于地震数据体的三维绘制,能够直接揭示蕴含在庞大数据中的地质现象与规律,帮助科研工作者详
基于内容的音乐信息检索(Content-based Music Information Retrieval,CBMIR)逐渐成为语音处理、信息检索、模式识别领域研究的焦点。在基于内容的音乐检索技术的相关研究中,
近年来,随着半导体技术的发展和信息技术以及数字化产品的普及,Internet被广泛地应用;与此同时嵌入式技术也取得突飞猛进的发展,并以其低成本、低功耗、小体积、高稳定性和可
本体被用来描述某领域的概念以及概念间的关系,一般由概念,概念间关系和公理三部分组成。概念本体则专指本体中的概念部分,构建概念本体是教学资源建设的基础。目前的概念本
图像的分类与识别在人机交互、视频监控、多媒体检索等方面有着广泛的应用前景。传统的计算机模式识别方法不能取得令人满意的效果,人类本身却可以轻松的完成物体识别和理解的