论文部分内容阅读
互联网技术的迅猛发展对企业的经营方式和消费者的行为模式都产生了深刻的影响。企业通过了解用户对他们的评价来改进产品,改善服务,获得竞争优势;消费者也会根据网上对企业的评价来做出购买决策。于是,文本倾向性识别就成为语言信息处理领域研究的热点。鉴于此,本文以互联网上对一些知名家电企业的产品和服务的评价文本为对象,初步研究了企业评价倾向的自动判别问题。
本文所做的工作主要有以下五个方面:
1.系统分析了企业评价倾向判别要解决的基本问题。包括评价对象的识别问题,评价倾向表达方式的识别问题以及知识库资源建设问题。
2.构建了一个小规模的语料库。笔者选取了互联网上家电论坛的帖子和网络新闻两类文本共计两百篇,标注了其中表达评价倾向的语句,为总结评价倾向的表达方式服务。
3.总结了对企业产品和服务进行评价的倾向表达方式。基于对语料的分析,将句子中表达倾向的评价激活词分成有评价义和无评价义的两大类,又将有评价义的激活词分成形容词、名词、动词三个子类,以此为纲来研究评价倾向的表达方式。
4.建立了服务于评价倾向识别的知识库资源。知识库资源包括企业名称与品牌知识库、产品和服务词语知识库、评价激活词语知识库、否定词语知识库、无评价义词语知识库。
5.设计和实现了对企业产品和服务的评价倾向进行自动判别的程序。程序用C#编程语言编写而成。笔者选取了互联网上的与五个家电企业有关的网络新闻100篇,家电论坛上的评价帖子200篇作为语料来对程序进行小规模的测试,分别计算了新闻类和论坛类文本评价倾向判别的准确率、召回率和F值,准确率达到80%以上,召回率达到70%以上。
本文的工作还只是初步的探索,今后要从三个方面加以改进:一是对识别方式进行改进,以提高识别的准确率;二是将句子层面的识别成果扩展到句群和篇章的层面;三是将HNC的句类知识运用到评价倾向识别中。