面向网络舆情监测的话题发现与跟踪技术研究

来源 :中国航天科工集团第二研究院航天科工集团第二研究院 | 被引量 : 0次 | 上传用户：guoqing123456789

【摘要】

：

大数据技术的发展，为数据资源的开发和利用带来了重要机遇和挑战，人们的各种行为方式和各种言论都以数据的形式被记录下来，因此如何对互联网中存在的群众的各种言论进行数据挖掘

【作者】

：

齐钢雷

【机构】

：

航天科工集团第二研究院

【出处】

：

中国航天科工集团第二研究院航天科工集团第二研究院

【发表日期】

：

2017年期

【关键词】

：

舆情监测数据挖掘话题发现追踪模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据技术的发展，为数据资源的开发和利用带来了重要机遇和挑战，人们的各种行为方式和各种言论都以数据的形式被记录下来，因此如何对互联网中存在的群众的各种言论进行数据挖掘并持续跟踪，一直都是舆情监测领域研究的热点。在新媒体日益普及的形势下，如果相关单位不能实时监测舆情动态、不能掌握舆论主导权、在舆情突发事件出现后的“黄金24小时”等重要环节失声、缺位，往往会出现严重后果。　　本文详细介绍了舆情监测及话题发现与跟踪的研究背景和意义，分析了相关的关键技术，包括网络爬虫技术、文本预处理、文本表示等相关技术和话题发现与跟踪的成熟模型及主要算法。针对话题发现和跟踪模型中涉及的K-Means算法和KNN算法的缺陷，分别提出针对性的改进方案，并最终运用到航天舆情监测系统中，最后通过对真实网络环境下报道文本的聚类分类分析，验证了本文提出的解决方案的可行性和准确性。本文的主要成果可总结为以下三点:　　(1)针对舆情话题的发现问题，详细分析了话题发现的工作流程和主要算法，结合“乘积最大”思想和适应度函数的评价，提出一种改进的K-Means算法用于文本聚类。该算法首先利用“乘积最大”思想，在需要聚类的文本集中选取出所需的初始聚类中心，完成每次文本聚类;接着用Silhouette适应度函数评价每次聚类的效果，通过比较每次的聚类效果，选取聚类效果最好的初始聚类个数作为最终的聚类个数，同时输出聚类个数和聚类结果作为本次聚类的最终结果，进而提炼出舆情话题。　　(2)针对舆情话题的跟踪问题，详细分析了话题跟踪的工作流程和主要算法，本文结合KNN算法思想，针对KNN算法在分类时计算的盲目性导致计算量较大的缺点，本文先对每个话题分类提取话题特征向量，对可能的话题类进行初步筛选后，待分类文本再和筛选后的话题类下所有文本进行相似度计算从而有效避免了计算的盲目性;在类别归属判别公式的设计上，本文采用对最邻近的文本计算相似度平均值的做法代替原有KNN算法中取相似度之和的做法，并针对话题特征向量的更新给出了更新方案。　　(3)在对话题发现和话题跟踪模型进行详细设计和实现的基础上，本文通过改造原有竞争情报系统，搭建了一套航天网络舆情监测系统作为验证环境，并从系统总体架构、功能结构和部署架构等方面对系统进行了说明。最后通过系统的实际运行和实验结果分析，验证了本文提出的话题发现和跟踪模型的可行性和准确性，为网络舆情监测系统话题发现和跟踪提供了有力支撑。

其他文献

若干数据流挖掘算法的研究

数据挖掘,是从大量原始数据中提取知识的过程.由于其在现实生活中的广泛应用,数据挖掘领域在研究方面已有很大发展.然而,在一种新的数据环境中,即数据流环境中进行挖掘是一项

学位

数据挖掘数据流聚类频繁模式分类

GIS与GPS在电力行业的应用研究

在社会用电量和用电规模剧增的今天,电力系统从发电厂、输供电线路、变电站、配电所直到电度表,大量各种各样、不同规范的电气设施分布在广阔的地域和空间.这对电力系统的生

学位

GISGPS电力smallworldGIS集成

企业应用集成中数据集成技术的研究

技术和历史等各种原因造成了企业应用系统的分割,多个系统之间相互独立,无法共享数据,需要一种新的技术来解决这些问题.企业数据集成将企业的离散数据源联合起来,建立一个全

学位

企业应用集成企业数据集成中间件Web服务数据映射包装器

感知网的时钟同步研究

感知网由大量低成本、低能耗、体积小巧且具有一定计算能力和组网能力的感知设备组成,是一种以数据为核心的系统.在处理由大量感知节点产生的数据时面临一个重要的问题,即如

学位

感知网网络拓扑时钟同步统计时钟同步时间戳

面向知件构造的网页信息抓取及检索系统的设计与实现

“知件”是本文作者所在研究团队于2005年提出的一个概念，它与硬件和软件相对应，用于刻画可独立成为IT领域可商品化的知识模块，其基本理念是封装可表示的知识，并通过统一规范的接

学位

知件构造知识库系统网页信息提取信息检索在线知件共享

基于复合签名和信息隐藏的电子公文安全系统

随着电子政务时代的到来,中国各地、各级部门的电子政务建设如火如荼的开展起来.由于Intemet的开放性,电子政务的安全问题日渐突出.电子政务安全的核心问题之一是电子公文的

学位

电子政务联机手写签名信息隐藏数字签名简单对象访问控制协议

基于阻尼振动模型的SFS算法

从明暗恢复形状(SFS)考虑的是从单幅图象中的明暗渐变恢复出被成象物体表面的形状.已有的大多数SFS迭代算法缺乏对收敛性的分析和保证.该文提出了用于求解优化问题的阻尼振动

学位

从明暗恢复形状收敛性微分方程的定性理论多分辨率方法

分布式网络入侵检测系统的研究及实现

当前,网络已经成为社会和经济发展的强大动力,然而Internet的共享性和开放性也使之存在着严重的安全问题.随着对计算机系统弱点和入侵行为分析研究的深入,基于网络的入侵检测

学位

网络安全入侵检测协议分析模式匹配

人脸图像配准误差对识别性能的影响分析及其对策

人脸识别技术作为模式识别研究领域中的典型问题,在过去的三十年中一直是科研焦点.近些年,作为生物识别技术中的一个重要方向也得到了越来越多的重视,取得了巨大的进步并日臻

学位

人脸识别配准误差Fisherface增强线性判别分析Gabor小波

基于网络传真的版面分析技术研究

OCR(Optical Character Recognition)系统的中文全称是光学字符识别系统,它包括脱机识别和联机识别两种.该文研究的基于网络传真图像的版面分析属于脱机字符识别的一部分,其

学位

版面分析图像二值化倾斜校正游程平滑

面向网络舆情监测的话题发现与跟踪技术研究

其他学术论文