论文部分内容阅读
本文深入讨论了互联网发展的现状,互联网舆情的复杂性以及论坛舆情的特点。论坛冲突无处不在,网络匿名性加剧网络冲突,宣泄情感的词的滥用和管理者对过激词语和帖子的屏蔽,使得一般性冲突上升为强烈冲突,强烈冲突上升为过激冲突,更由此引发了言论自由的伦理与法律问题。论坛舆情的特殊性和舆情监控的迫切性决定了论坛舆情系统的重要性,考察社区论坛冲突的形式与规模,提出以论坛冲突信息的分析和利用解决互联网舆情复杂性产生的矛盾。
论坛冲突的分析依托于互联网舆情系统,文章设计了一个包含论坛冲突分析模块的舆情监控与预警系统,给出系统的总体功能、结构和数据处理流程。论坛冲突分析模块在热点话题发现与跟踪模块的基础上,获得参与论坛热点话题讨论的用户ID及其帖子,构建社会关系矩阵得到参与热点话题讨论的用户文本交互关系,先用三维坐标点的x和y坐标值表示这种文本互动关系,再利用文本倾向性分析方法得到用户帖子的冲突倾向的量值,作为三维坐标点的z的坐标值。对矩阵进行行、列和整体运算得到用户的主动冲突倾向量值、被动冲突倾向量值和热点话题的冲突倾向量值。将冲突倾向的量值分为三个级别,过激冲突、强烈冲突和一般性冲突,根据舆情客体的要求进行相应级别的冲突话题的预警及冲突地域属性、时间属性和规模属性的数据分析和上报,以及根据不同虚拟社区的要求进行论坛用户的冲突预警,以达到对言论的监控而非屏蔽的目的。
对社区论坛冲突的分析,本文采用了社会网络分析和文本倾向性分析相结合的方法。对于冲突的指向性和复杂的冲突关系,利用社会网络分析方法构建社会关系矩阵予以解决。对于论坛帖子的冲突倾向,利用文本倾向性分析方法得以完成。文本倾向性分析的三种方法,基于情感词加权方法、基于语义模式分析方法和文本分类方法,过程各不相同又各有特点和适用的文本类型,经过对论坛冲突分析和文本倾向性分析的比对,得出可以采用文本倾向性分析的结论,并选用情感词加权的方法得到论坛冲突倾向量值的具体计算方案。
本文设计的互联网舆情监控与预警系统涉及到文本分类、文本聚类、智能处理、自动关键词提取、主题检测、文本倾向分析、社会网络分析等方面的技术,本文侧重介绍和采用的话题检测与跟踪、社会网络分析、文本倾向分析分别用于冲突话题的确定、参与冲突话题的用户的文本互动关系以及用户的文本冲突倾向计算,都属于数据挖掘技术的范畴。舆情系统功能的完善和升级将依赖于与之相关的文本聚类方法、TDT技术、自然语言技术的进步。