论文部分内容阅读
作为一种普遍存在的数据结构,网络总是被用来编码许多应用领域中实体之间的关系,如社会学中人与人之间的社会关系、生物学中蛋白质之间的相互作用以及金融公司之间的交易等。随着大数据时代的到来,网络数据的收集和存储能力日益提高,对大规模网络数据进行深入而细致的分析,能够有效了解和探索人类行为模式。然而,网络数据的规模日益庞大、结构日趋复杂,为大规模网络的研究带来了一定的困难,尤其是在网络分析、数据挖掘与可视分析等领域。例如,图挖掘算法通常具有很高的计算复杂度,图可视化方法也固有地受到所用算法的复杂性、屏幕空间、视觉杂波以及读取数据时人类感知能力的限制。因此,通过对大规模网络数据的高质量简化表达来提高大规模网络数据认知水平与分析能力的需求,变得尤为迫切。图采样技术是一种高效的数据约简方法,被广泛应用于简化各种大规模网络。但是,现有的图采样策略大多都是在传统的网络空间中进行,不仅采样过程具有较高的计算复杂度,其采样结果也具有较强的不确定性。而传统的采样结果评估通常是根据网络数据的统计特征,如度分布、聚集系数等进行评价,难以直观而快速地观察网络拓扑结构及其隐含语义关联的变化。可以看出,传统的图采样策略及其评估方法无法很好地保留和观察大规模网络数据集中的复杂结构特征,难以实现大规模网络数据的高质量简化表达。近年来,基于自然语言处理技术的表征技术受到了广泛关注和发展。不同于传统的网络表示,该方法能够有效提取网络结构与其它特征信息,进而将大规模网络数据转换到矢量化空间中,帮助人们获得更具区分性的网络向量化表示,从而实现大规模网络的量化分析。不过,基于表征技术所获得的向量化表示虽然易于计算,却也过于抽象,难以直观地感知和探索网络特征。而可视分析作为一门跨学科的领域,不仅可以集成数据挖掘、模型分析等多门学科的理论和方法,还可以根据用户的先验知识或特定需求实现探索式的界面与交互设计,帮助用户直观且有效的获取并评估大规模网络数据。因此,本研究旨在利用表征算法来学习并提取大规模网络数据的语义结构特征,借助数据可视分析方法对大规模网络的语义结构特征进行分析和探索,进而在有效提取结构特征的基础上,结合图采样技术对大规模网络数据的高质量简化表达展开相关研究。主要创新点如下:(1)面对大规模网络数据的特征提取问题,开展基于表征学习的文献影响力可视分析研究。本研究以引文网络为例,设计引文网络元素与自然语言处理(Natural Language Processing,NLP)术语间的类比,根据引文网络数据中潜在的语义关联构建大规模语料库,利用表征学习模型将网络空间中的原始引文网络结构转换成向量化空间中具有语义结构特征的向量表示,并利用降维模型对向量进行二维投影,借助丰富的可视化编码方法来增强用户对原始引文网络特征信息的视觉感知。最后,通过案例分析和可视化探索,证明表征算法在有效表征和高效提取原始网络结构及其它特征信息方面有明显的优势。(2)面对大规模网络数据的规模约简问题,提出图表征驱动的大图采样算法可视分析研究。本研究利用图表征学习模型对原始大规模网络进行学习,建立原始网络结构的向量化表示,从而通过投影获得具有语义结构相似性特征的表征空间,据此设计基于自适应蓝噪声采样的多目标采样模型,使得用户可以在保留语义相似性特征的同时根据分析需求进行采样点更新,获得高质量的大规模网络简化表达。最后,集成上述技术,设计面向大规模网络的大图采样可视分析系统,并通过基于多个真实网络数据集的实际案例来验证采样算法的有效性和系统的实用性。综上所述,本研究针对大规模网络数据的规模庞大、关联复杂的特性,利用自然语言处理领域中的表征学习方法进行大规模网络数据简化表达与可视分析研究。本研究不仅借助丰富的可视化设计多角度、全方面地展示了大规模网络数据及其结构性质,还提供大量的交互手段支持用户交互式地探索与发现大规模网络数据中隐含的结构模式及特征信息,帮助用户有效地获取大规模网络的高质量简化表达,对图数据挖掘与应用具有重要的意义。