论文部分内容阅读
在web 2.O技术的推动下,电子商务蓬勃发展使得网上购物成为当今人们生活的一种时尚,人们在购买商品的同时在网络上发表商品评论。用户评论作为用户体验的反馈信息,越来越被人们所重视,如何分析理解用户评论信息成为当前web挖掘的重要课题。产品评论挖掘就是观点挖掘技术在产品评论分析中应用,通过对产品评论文本的情感分析,比较产品之间的优劣差异。一些学者已经对产品评论挖掘进行了研究,虽然已经解决极性分类的问题,却没有进一步对产品特征的信息进行挖掘,同时由于没有从语义层次进行解析,对语义中的否定句和比较句极性处理存在着较大误差,针对以上问题,本文提出了新的基于句法分析的产品评论挖掘系统。本文简述了观点挖掘的概念和关键技术,设计观点挖掘系统的基本框架,首先针对产品评论语言的动态性和奇异性的特点,总结了网络中的非正规化语言中带有极性色彩的词语和符号,在构建极性词典时加入了非正规化语言极性词,提高了对网络语言的适应性,其次在分析了词语出现频率和极性色彩的相关性,计算极性强度方面使用了词频逆向文档频率方法进行归一化处理,提高了极性分析科学性和合理性。然后在句法分析中基于观点评论的四要素,提出了观点挖掘句式分析树形结构模型,使用标点符号和关联词作为划分标识对评论文本进行句式分割,将复句划分为单句形式;针对中文句中的否定句提出使用否定词典划分的方法处理语义变化,减小词语的维度,提高解析速度;同时在处理比较句时采用分析比较关系主体的位置和比较词极性的方法,判断比较句的极性。最后在SO-PMI算法的基础上,提出了自下而上的基于句法分析的产品评论挖掘SP-PMI算法,通过对评论文本的句式分割,提取观点要素得到单句中的特征信息,通过从特征层次的分析,得到产品的综合极性评估。在以上算法的基础上,构建了产品评论特征挖掘系统,经过实验验证该算法有效的提高了原SO-PMI的查准率,特别是对比较句的极性分析查全率和查准率提高了近13%,说明采用句法分析的方法比基于统计的分类方法具有更高的准确率。同时特征挖掘系统也对同类产品的特征进行比较,分析了相同档次产品间的特征差异和不同档次产品间的特征差异,具有一定的企业实用价值。