论文部分内容阅读
大数据技术的发展,为数据资源的开发和利用带来了重要机遇和挑战,人们的各种行为方式和各种言论都以数据的形式被记录下来,因此如何对互联网中存在的群众的各种言论进行数据挖掘并持续跟踪,一直都是舆情监测领域研究的热点。在新媒体日益普及的形势下,如果相关单位不能实时监测舆情动态、不能掌握舆论主导权、在舆情突发事件出现后的“黄金24小时”等重要环节失声、缺位,往往会出现严重后果。 本文详细介绍了舆情监测及话题发现与跟踪的研究背景和意义,分析了相关的关键技术,包括网络爬虫技术、文本预处理、文本表示等相关技术和话题发现与跟踪的成熟模型及主要算法。针对话题发现和跟踪模型中涉及的K-Means算法和KNN算法的缺陷,分别提出针对性的改进方案,并最终运用到航天舆情监测系统中,最后通过对真实网络环境下报道文本的聚类分类分析,验证了本文提出的解决方案的可行性和准确性。本文的主要成果可总结为以下三点: (1)针对舆情话题的发现问题,详细分析了话题发现的工作流程和主要算法,结合“乘积最大”思想和适应度函数的评价,提出一种改进的K-Means算法用于文本聚类。该算法首先利用“乘积最大”思想,在需要聚类的文本集中选取出所需的初始聚类中心,完成每次文本聚类;接着用Silhouette适应度函数评价每次聚类的效果,通过比较每次的聚类效果,选取聚类效果最好的初始聚类个数作为最终的聚类个数,同时输出聚类个数和聚类结果作为本次聚类的最终结果,进而提炼出舆情话题。 (2)针对舆情话题的跟踪问题,详细分析了话题跟踪的工作流程和主要算法,本文结合KNN算法思想,针对KNN算法在分类时计算的盲目性导致计算量较大的缺点,本文先对每个话题分类提取话题特征向量,对可能的话题类进行初步筛选后,待分类文本再和筛选后的话题类下所有文本进行相似度计算从而有效避免了计算的盲目性;在类别归属判别公式的设计上,本文采用对最邻近的文本计算相似度平均值的做法代替原有KNN算法中取相似度之和的做法,并针对话题特征向量的更新给出了更新方案。 (3)在对话题发现和话题跟踪模型进行详细设计和实现的基础上,本文通过改造原有竞争情报系统,搭建了一套航天网络舆情监测系统作为验证环境,并从系统总体架构、功能结构和部署架构等方面对系统进行了说明。最后通过系统的实际运行和实验结果分析,验证了本文提出的话题发现和跟踪模型的可行性和准确性,为网络舆情监测系统话题发现和跟踪提供了有力支撑。