中文产品评论的意见挖掘研究

来源 :北京交通大学 | 被引量 : 15次 | 上传用户:timeman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的迅猛发展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。本文以中文产品评论为主要研究对象,从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究,论文主要内容如下:采用机器学习的方法对产品评论进行整体褒贬分类研究。构建用于产品评论褒贬分类的语料库;采用基于N-Gram文本特征抽取(分为基于词的unigram, bigram和基于字的unigram, bigram, trigram),结合不同的特征权重计算方法(TF,BOOL, TFIDF),在不同的分类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明关键字匹配方法好于基于依存句法分析方法。最后,设计并实现了一个产品评论意见挖掘系统,该系统可以自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的统计展现。
其他文献
火灾是一种多发、常见的自然灾害,例如建筑火灾、矿井火灾、森林火灾、隧道火灾不仅使人类的生命和财产蒙受巨大损失,还对生态环境造成了极大的破坏。虽然现在火灾检测技术已
随着计算机网络的发展,传统的分布式计算模式已经不能满足用户的需求,人们需要一种新型的智能分布式计算模式,移动Agent计算模式应运而生。该计算模式在网络管理和互操作性上取
在三维地理信息系统(GIS)中,三维数据模型与数据结构是研究的核心。从数据描述格式的角度划分,三维空间数据模型可以归纳为面模型和体模型两种。由于体模型可以把空间对象以离
近年来,片上多核处理器成为主流,国产芯片龙芯也推出了四核处理器-龙芯3A。为了充分利用多核处理器的片上资源,使多核处理器的硬件资源转变为程序性能的提升,并行程序设计变
词是语言中最小的能独立运用的单位,是自然语言处理的基本单位。词法分析是自然语言处理的一个基础课题,其主要研究内容是进行词语切分和词语标注。语言学上,按照词的形态结
图像分割作为图像智能化处理的重要发展方向,受到图像处理界的高度关注。遥感图像分割作为图像分割中一个重要应用,深受研究者的重视。由于遥感图像与其他类型图像相比,具有
随着信息技术的快速发展,大量的软件产品已渗透到各行各业。如何保证软件的质量问题成为一个关注焦点。软件测试是确保软件产品质量及可靠性的主要途径,其地位是无可替代的。
随着海洋技术的发展,水下通信网络,作为通信网络的一个重要分支,在海洋监测、水下定位、海洋资源勘探等方面发挥了重要的作用。但是,水下通信网络的研究也有一定的困难,有很
人工智能是计算机科学的一个分支,目的是使机器能够像人类智能一样感知环境并最大化达到目标的可能。机器博弈是人工智能极具挑战的分支之一,其研究对人工智能的发展具有积极
人脸识别技术作为最具有发展潜力的生物特征识别技术之一,在最近几年得到了广泛的研究和应用,尤其是基于视频的人脸识别技术。本文重点研究基于视频的近距离人脸识别方法,主