基于日志数据的多维数据可视分析的研究及应用

来源 :中国科学院大学(中国科学院沈阳计算技术研究所) | 被引量 : 0次 | 上传用户:lchf1129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,如何从海量的数据中获取价值是企业所关心的问题,也是科研工作者的研究热点。传统的数据挖掘和数据分析方法能够从数据中获取信息,但是这些信息如何能被用户所理解则又是一个难点。而数据可视化能够把数据中隐藏的规律和特征以图形的方式呈现出来,使得用户可以快速地、直观地了解数据中的信息,提高了人们对数据的认知和探索能力。在大数据时代,可视化不再局限于科学研究和企业应用领域,数据的交互可视分析和智能计算已成为社会重大需求的共性基础,比如智慧医疗、智慧交通、数字产业等各个方面。面对大数据的海量、异构、多维等特征,传统的可视化技术已无法满足对这些数据的分析,因此对可视化技术的深入研究是时代的需要,可视化技术的创新将对大数据资源的高效利用产生重大的推动作用。多维数据可视化是信息可视化领域的研究热点之一,是将多维的原始数据或处理后的数据进行直观展现的技术。如何将多维数据可视化应用于各领域的数据智能分析与辅助决策中是一个有迫切需要且有意义的研究问题。本文主要基于交易日志对多维数据可视分析中的几个问题展开研究,并提出相关的解决方案。本文的主要研究工作:1.基于日志数据的多维数据趋势性可视分析。在线交易日志记录了商品、用户、商家、交易量、地理位置等相关信息,以及这些信息随时间的变化情况等,利用这些信息可以帮助分析人员了解商品的销售情况。现有的可视化方法主要从用户的角度进行购买行为分析,而通过对商品的销售走势情况进行分析能更好地帮助商家进行商业决策。本文基于交易日志数据,提出了多维数据趋势性可视分析框架和对应的数据处理算法;提出了数据走势波动性和动力性的概念,通过数据走势动力性将多维的时序数据映射到二维空间;设计了数据点的颜色映射方案;设计了“特征环”来展示个体对象的数据详细信息;基于上述方法设计并实现了可视化分析系统。通过在线交易数据进行测试,验证了可视化方法的有效性。2.基于日志数据的多维数据协同可视分析。在线交易数据呈现出显著的多维和时空属性,本文提出了一种多维时空数据协同可视分析的方法。首先,设计了一种多维属性协同可视化视图,以销售数据为例对多维属性及其相互关系进行了展示。其次,为了有效地探索多维时空数据的时序演化规律及其隐含的特征模式,设计了时空协同可视分析方法。通过多维尺度变换,将原始数据集按时间顺序映射到二维空间,进一步实现了序列平行坐标的构建,用来同时展现大量空间对象的时序变化规律。为了提高对平行坐标系的视觉感知,对坐标轴进行缩放,压缩稀疏区域,拉伸密集区域。当数据量较大时,在平行坐标中存在大量的曲线交叉和重叠,用户无法准确地识别不同的对象,本文利用层次聚类进一步分析平行坐标的显示结果,可以更清晰地发现不同类别的时间特征。通过对在线交易数据的实际案例进行分析,表明该方法能够帮助用户快速发现隐藏在多维时空数据集中的特征模式。3.基于日志数据的多维数据排序及分类可视分析。对海量的多维数据进行分类是一项复杂的工作,通常需要对聚类参数、数据特征和实例进行迭代实验。一个数据集可能的聚类数量有时是非常庞大的,对此空间的探索是一个巨大挑战。人们通常对部分数据有更全面的理解,如认为数据点A比数据点B好,但并不知道哪些属性是重要的,因此一个有力的交互分析工具有助于大幅度提高探索性聚类分析的有效性。本文提供了一个可视化的分析方法来对多变量数据进行排序和分类,该方法首先通过用户的交互操作确定用户的偏好,根据用户的偏好模型计算各个属性的权重,再利用得到的属性权重集对整个数据集进行排序,最后根据排序结果和用户对部分数据的标记完成类别划分。通过可视化显示,让用户直观地进行数据排序和分类操作,快速地了解数据的特性和类别特征。
其他文献
《水浒传》中不仅塑造了众多深入人心的好汉形象,同时也描写了许多市井女性人物,她们各具特色,按照不同类型将其划分,有助于对《水浒传》进行更多角度的理解和研究。通过分类研究这些市井女性的类型特点,剖析部分市井女性人物对作品本身产生的作用,帮助读者从不同的角度品读《水浒传》。
喂,小眼镜喊你读书啦!读什么书?当然是我国的四大名著之一《水浒传》啊!唉,名著读起来好枯燥(kū zào)啊!这次,先别急着下结论,让我们换种方式读名著,与《水浒传》来一场快乐相约。图话《水浒传》人物小档案:《水浒传》是元末明初施耐庵写的章回体长篇小说,为中国古典四大名著之一。书中讲述了以宋江为首的绿(lù)林好汉由被逼(bī)落草,发展壮大,直至受到朝廷(cháo tíng)招安,
期刊
众所周知,整本书阅读能够锻炼学生的思维能力,提升学生的阅读素养,但当前学生阅读碎片化、浅表化的现象较为严重。对此,教师在开展整本书导读时应具备三种意识:由一本走向多本的类型意识;贴近学生需要进行导读,帮助学生走向深度阅读的生本意识;用声音、视觉、影视等媒介创设情境、解读作品意蕴的媒介意识。
学位
本文采用与观测结果具有相同形式的球状星团空间密度分布函数,在给定两种球状星团系统的初始质量谱(幂律的和对数高斯的)和两种球状星团系统的初始速度分布函数(爱丁顿速度分布函数和常数的速度弥散度)条件下,我们采用Monte Carlo的方法对球状星团系统的动力学演化进行讨论。本文考虑的动力学过程有四种,即:恒星蒸发、早期大质量恒星的演化、银河系核球和盘的冲击加热以及动力学磨擦。恒星蒸发对小质量球状星团的
学位
本论文包括四个部分:第一部分是关于黑洞的量子统计熵; 第二部分是关于黑洞的正则量子化及其de Broglie-Bohm 解释; 第三部分是关于Quintessence 宇宙学; 第四部分是关于具有Tachyon 场的经典和量子虫洞。因此,全文共分为四章。在第一章中,我们用t ’Hooft 的热气体方法研究了各类黑洞(静态、稳态; 低维、高维)的量子统计熵。具体研究了一般球对称黑洞缘于任意自旋量子场
学位
氢原子钟具有优良的频率稳定度和准确度,所以它在空间跟踪、导航、射电天文、守时及频率计量等方面均起到重要的作用。由于它使用高有载品质因数微波谐振腔,其振荡频率随腔的谐振频率的变化而变化,即所谓腔的“牵引”效应,这就是产生氢钟长期稳定度变坏的主要原因之一。本论文主要是对主动型氢钟现有的腔自动调谐(CAT,Cavity Auto Tuing)部分进行数字伺服控制以求提高原系统的稳定性和可靠性。主要包括两
本论文所研究的课题是中科院上海天文台时频中心氢原子钟中的一个子课题,要求实现L波段低相噪、高频率稳定度和低成本的频率合成器。频率合成技术是电子系统实现高性能指标的关键技术之一,也是现代通信技术中一个重要的研究方向。 本文叙述的是采用锁相原理设计的频率合成器。首先介绍锁相环的基本原理和基本组成部分,然后介绍锁相环频率合成器的设计方法,主要介绍由电荷泵鉴相鉴频器和无源环路滤波器构成的锁相环频率合
卫星激光测距(SLR)技术是二十世纪六十年代中期出现的精密空间测量技术,经过近四十年的发展,单次测距精度已达到亚厘米级,科学应用广泛。目前上海天文台卫星激光测距站单次测距精度已达到10~12mm。在夜间测量的基础上,经过近10 年的大量技术改进,成为国内第一套具备常规白天测距能力的卫星激光测距系统。但是白天测距比夜间观测要困难的多,成功率也有一定的差距,其中望远镜机架指向精度是制约白天测距能力的重
甚长基线干涉测量(VLBI)是重要的射电天文技术,具有极高的空间分辨率,是国际上广泛采用的深空探测器高精度测量手段。硬件相关处理机则是VLBI数据预处理的核心设备。随着以FPGA为开发平台的嵌入式系统的不断发展,用FPGA和嵌入式系统作为实现方式成为硬件相关处理机研究的一个方向。近年来,发展迅速的e-VLBI将采用数字基带转换器(DBBC)作为观测数据记录终端,并通过网络将观测数据传输到数据处理中