结合可视化与数据挖掘的数据分析方法探究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:tmgt2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,各种常见数据分析方法已在研究界和工业界得到广泛研究和应用。作为其中具有代表性的两类知识发现和数据分析手段,可视化和数据挖掘方法在近几十年来一直是研究者们所关注的热点。从两种方法所存在的问题上考虑,数据挖掘作为一种从大量数据中发现信息的过程,其大量依赖自动算法的特质,使得用户难以对数据和算法过程本身直观地进行理解、探索和优化。随着数据量和数据结构复杂度的日益增长,可视化方法中的数据简化、采样、变换等方面的需求也日趋增多。目前如何融合可视化和数据挖掘两种手段,使其能够相互解决彼此存在的缺陷和挑战,成为两个领域研究者重点关注的问题。本文以可视化和数据挖掘两个学科的结合点为研究对象,围绕其互相辅助的形式等相关问题展开研究。对于以数据挖掘方法为核心的分析过程,可视化能够通过辅助结果分析、支持用户参与整个挖掘过程、以及展示数据挖掘模型的核心内涵等方式加以支持。而可视化方法中,数据挖掘也可以对可视化结果中模式的筛选和过滤过程进行辅助。本论文的主要贡献概括如下:·一种社区发现结果的交互式可视化分析方法该交互式可视化方法面向数据挖掘中的社区发现算法,使用多个可视化视图来展示网络中的社区结构及分布。同时,该方法融合了网络拓扑结构和网络中节点和边的属性(称为上下文信息),从多种角度侧面展示社区结构和属性之间的联系,以期从社区发现结果中发掘更加准确的信息。·一种基于可视分析方法的迁移学习分类模型构建过程我们提出了一整套可视化方法,用于展示迁移学习模型构建的整个过程,包括基于任务相似度来选取合适的源任务,以及从选定的源任务中探索和选取适合迁移到目标任务中的数据点。同时我们构建了 TransExplorer系统来实现该方法。·一种基于白盒策略的支持向量机可视化构建方法该方法使用高维投影方式展示了支持向量机中的训练数据,及支持向量机模型的核心结构。同时对于分类边界比较复杂的场景,该方法支持交互式地构建局部线性支持向量机模型,通过多个线性模型来逼近非线性的分类边界。最终我们构建了 EasySVM可视化系统,来实现我们提出的方法。·一种基于深度度量学习的散点图感知距离模型构建方法基于人类在视觉感知上对散点图相似度的判断,构建了一整套散点图相似度度量模型的构建方法,包括训练数据的获取和模型训练过程。该方法使用了深度学习模型作为特征抽取工具,对散点图图片上关乎相似度判断的模式进行提取和总结,继而对于相似度未知的散点图对进行相似度计算。我们设计了一系列实验和用户调研来验证本方法的有效性,并提出了两个实际场景来说明本方法的实际应用价值。
其他文献
东丰县某獭兔养殖场饲养了327只可繁母兔,其中妊娠104只,哺乳93只,空怀130只。由于近期在紧靠獭兔场修建了一条临时工程运料砂石路,每天有50多辆次的工程车经过该养兔场,运量
<正>随着经济社会发展和生活水平不断提高,尤其是进入"十二五"规划后对生猪规模养殖提出了集约化、生态化健康养殖的新理念,对养殖环境与生猪肉品品质要求提出了越来越高的标
目的探讨彩色多普勒超声检测胃癌血流分级与病理微血管密度(MVD)和血管内皮生长因子(VEGF)表达的临床病理关系。方法术前测定60例各期胃癌患者肿瘤区域和正常胃壁的二维声像
生猪腹泻后需立即对症治疗,若采取治疗措施不及时,往往会严重影响仔猪的生长发育,甚至脱水死亡,成猪的掉膘,增重减少,上市时间推迟,牲畜抗病力下降,直接造成养猪户经济损失。
猪食盐中毒是一种非常少见的情况。2010年12月15日,笔者接诊了一例典型的猪食盐中毒病例,该畜主共饲养猪11头,全部发病,现将诊断及治疗情况报告如下:1发病经过及症状该畜主共
综述国内外近 2 0a来在DNA分子水平上对云杉属植物遗传多样性的研究进展 .简述用RELP、RAPD、SCAR、AFLP、SSR、EST、STS以及SNP标记对于云杉属核DNA、线粒体DNA、叶绿体DNA
改性分散松香主要用作造纸工业的纸内施胶剂,是目前广泛使用的皂化松香胶的替代产品。本文叙述了合适的分散剂的选择和改性分散松香的制备方法及有关特性。
研究了云杉自然分布区内 2 0个天然群体的针叶长度、宽度 ,球果长度、宽度、烘干质量、出籽率 ,种子的长度、宽度及每粒质量共 9个表型性状的变异规律和模式。结果表明 :云杉
本文概述了英国西加云杉和落叶松无性繁殖的历史、研究背景、生产方法、扦插苗的造林表现和大规模应用的发展前景。目前已优化无性繁殖系统的扦插苗生产成本为常规的1/3,且扦插苗
本论文选取国小一年级的华语教材作为研究对象及研究范围,对两本教材的字词量以及复现从多方面进行统计分析,掌握其字词量、等级分布、复现等情况。对这些情况提出存在的问题,从