论文部分内容阅读
近年来有关网络舆情的研究如火如荼。目前国内对主观信息的研究主要集中在对产品评论信息的研究上,本文的研究对象是主观信息的另一个类别--事件评论。意见挖掘研究从最初的篇章级的意见挖掘发展到句子级意见挖掘,颗粒度不断细化,挖掘方法从统计学方法逐渐演变到自然语言处理技术或前两者的结合。
本文主要是采用统计学方法和自然语言处理技术相结合的方法对事件评论进行意见挖掘。对网络舆情事件评论信息进行意见挖掘研究首先要分析事件评论的特征,除了拥有产品评论的一般特征以外,事件评论具有主题突发性、主题易转移性和情感表达丰富性,从而可见适用于产品评论的意见挖掘技术并不一定适用于事件评论。极性词典的构建和事件主题的识别是情感分析的两个基础。本文提出了基于HowNet和网络情感词的极性词典的人工构建方法,引进了同义词表减少手工构建的工作量,并抓住网络新词往往是现有情感词的其他形式这一特点,设计了针对表达情感的网络新词的自动识别方法,进一步扩展极性词的收录范围,从而提高情感分析的精度。受到句子中否定词和程度级别词的影响使得句子极性不是简单地等于极性词的原极性,本文引进句法分析技术通过词语之间的依存关系实现句子极性识别。事件评论的主题识别是意见挖掘的另一个重点,针对事件评论主题突发性特点,本文提出了利用网络百科全书构建事件本体的方法,除此之外,还对陈述界定进行了初步的探索。本研究的语法分析是基于国内现有的具有代表性的、开放的LTP系统之上,IXP系统具备中文信息分词技术、句法分析技术、词性标注技术等自然语言处理技术,并对网络信息的处理具有较强的适应性,体现在句法分析技术和网络新词的识别上。