论文部分内容阅读
近年来,我国的网络群体行为频繁出现,特别是具有操控特征的网络群体行为对我国社会的公共安全体系带来了严重地威胁。操控网络群体行为通常在短时间内就能形成巨大的危害,如果无法对操控行为进行快速准确地识别,针对这一类网络群体行为的有效应对通常是难以实现的。因此,本文利用集群行为、复杂网络、时间序列分析与图形知识发现等相关理论与方法构造操控网络群体行为的识别模型,并且对模型的判别精度进行分析与解释。 首先,分析了网络群体行为与网络信息传播的耦合关系。指出网络信息传播的用户要素与主题要素;同时明确了用户主题关联、用户组关联与主题组关联的关联规则,进而完成了虚拟社群的图结构表征。在此基础上,构造了表征用户活跃度的特征集,利用凝聚聚类技术得到用户活跃度的聚类中心,完成虚拟社群图结构的层次处理;同时,对图模式的关联关系引入时间信息,实现图结构的动态处理。图结构的层次处理与动态处理实现了虚拟社群的动态层次结构的表征。 其次,构造网络群体行为与非网络群体行为两类虚拟社群的动态层次图结构,用邻接矩阵对虚拟社群的动态层次图结构进行表示。根据图论知识,对图结构特征进行抽取,选择图的规模、点的度、点的桥接水平等特征量组成虚拟社群图结构的特征集。利用图结构特征集学习两类社群图模式的决策树分类模型,得到了图结构特征的决策树模型。通过分析决策规则的决策效率,构造决策树的剪枝准则,完成决策树的剪枝,实现树模型优化。最后,利用测试数据集对模型的决策精度进行验证。 再次,分析了虚拟社群图结构的频繁模式,同时比较了主要的频繁模式发现算法的计算逻辑,指出了基于深度优先搜索策略的gSpan算法对于社群图结构频繁模式发现的优势。明确阐述了图的最右路径扩展的节点选择策略与图的DFS编码规则,深入分析了DFS字典序对于优化计算的意义。然后,设定频繁模式的最小支持度,利用gSpan算法分别对操控社群与非操控社群的图模式数据构造频繁模式树,完成操控社群与非操控社群频繁图模式的可视化处理,并对两类社群的频繁模式集进行主题集与用户集分析,指出操控社群与非操控社群的频繁模式的结构特征。 最后,阐述了图模块归纳决策树算法的计算逻辑与算法步骤。深入分析了图模块的模块选择、图模块的数量计算与图模块的离散准则。构建操控社群与非操控社群两类样本的图数据集,利用频繁模式发现算法得到模型学习的模块集,计算全部样本的模块存在数量,根据模块的离散准则对数量矩阵完成离散处理。利用得到的数量矩阵学习操控社群与非操控社群的图模块归纳决策树模型。同样,完成树模型的剪枝处理,实现模型的结构优化。通过对模型的支持度与时序的分析,指出了模型决策水平优化的一般策略。通过比较不同支持度与时序的树模型决策水平,得到了最优决策水平的图模块归纳决策树。 实证研究证明了图模块归纳决策树对于操控网络群体行为识别的有效性。操控网络群体行为的识别效率直接提升了操控网络群体行为的应对水平,快速准确地识别操控网络群体行为对于维护国家的公共安全具有重要的意义。