论文部分内容阅读
随着大数据时代的来临,各种常见数据分析方法已在研究界和工业界得到广泛研究和应用。作为其中具有代表性的两类知识发现和数据分析手段,可视化和数据挖掘方法在近几十年来一直是研究者们所关注的热点。从两种方法所存在的问题上考虑,数据挖掘作为一种从大量数据中发现信息的过程,其大量依赖自动算法的特质,使得用户难以对数据和算法过程本身直观地进行理解、探索和优化。随着数据量和数据结构复杂度的日益增长,可视化方法中的数据简化、采样、变换等方面的需求也日趋增多。目前如何融合可视化和数据挖掘两种手段,使其能够相互解决彼此存在的缺陷和挑战,成为两个领域研究者重点关注的问题。本文以可视化和数据挖掘两个学科的结合点为研究对象,围绕其互相辅助的形式等相关问题展开研究。对于以数据挖掘方法为核心的分析过程,可视化能够通过辅助结果分析、支持用户参与整个挖掘过程、以及展示数据挖掘模型的核心内涵等方式加以支持。而可视化方法中,数据挖掘也可以对可视化结果中模式的筛选和过滤过程进行辅助。本论文的主要贡献概括如下:·一种社区发现结果的交互式可视化分析方法该交互式可视化方法面向数据挖掘中的社区发现算法,使用多个可视化视图来展示网络中的社区结构及分布。同时,该方法融合了网络拓扑结构和网络中节点和边的属性(称为上下文信息),从多种角度侧面展示社区结构和属性之间的联系,以期从社区发现结果中发掘更加准确的信息。·一种基于可视分析方法的迁移学习分类模型构建过程我们提出了一整套可视化方法,用于展示迁移学习模型构建的整个过程,包括基于任务相似度来选取合适的源任务,以及从选定的源任务中探索和选取适合迁移到目标任务中的数据点。同时我们构建了 TransExplorer系统来实现该方法。·一种基于白盒策略的支持向量机可视化构建方法该方法使用高维投影方式展示了支持向量机中的训练数据,及支持向量机模型的核心结构。同时对于分类边界比较复杂的场景,该方法支持交互式地构建局部线性支持向量机模型,通过多个线性模型来逼近非线性的分类边界。最终我们构建了 EasySVM可视化系统,来实现我们提出的方法。·一种基于深度度量学习的散点图感知距离模型构建方法基于人类在视觉感知上对散点图相似度的判断,构建了一整套散点图相似度度量模型的构建方法,包括训练数据的获取和模型训练过程。该方法使用了深度学习模型作为特征抽取工具,对散点图图片上关乎相似度判断的模式进行提取和总结,继而对于相似度未知的散点图对进行相似度计算。我们设计了一系列实验和用户调研来验证本方法的有效性,并提出了两个实际场景来说明本方法的实际应用价值。