高维空间数据挖掘预处理技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:sturdy13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文结合国家863计划项目“空间数据挖掘的神经网络技术研究”(No.2007AA12Z228)展开研究。 目前,数据预处理已经成为实现对大规模高维空间数据集的数据挖掘的必经阶段。数据预处理的核心目标是把数据组织成一种标准形式,使其可由数据挖掘工具处理,同时能够有效保证所得到的输入数据集在数据挖掘过程中获得最佳的数据挖掘效果。为此,本文对高维空间数据挖掘的数据预处理技术进行了相关的研究。 首先,本文总结了现有的数据预处理方法,并针对原始高维空间数据所存在的问题以及空间数据挖掘模型对输入数据集的要求和期望,提出了一个面向空间数据挖掘的数据预处理工作流程,该工作流程包括数据集成、数据清理、数据转换和数据约简或分区四个阶段。 然后,论文对工作流程中的关键技术进行了深入研究。针对数据清理阶段的异常点检测,本文采用基于移动曲面拟合的方法实现对空间数据的异常点检测;采用基于移动窗口和标准差理论的方法实现对时序数据的异常点检测;采用聚类分析的方法实现对多维数据的异常点检测。以上检测方法均编程实现,通过工程实例验证了其有效性。针对高维空间数据集具有海量、高维度特点而难于处理的问题,本文提出采用主成分分析法对数据集进行维度约简,从而实现了数据降维。另一方面,本文创新地提出了一种改进的快速傅立叶变换约简方法,实现了对时序数据的有效约简。经验证,在原始信息损失小于5%的情况下,约简后数据量可以小于等于原始数据的10%。此外,本文还提出了一种数据分区方法。该方法仅以时间信息、空间信息为参考轴,不仅实现了对大规模高维空间数据集的分区,避免了空数据区的产生,还能根据数据挖掘模型对输入数据集的要求,提取出目标数据集。结合具体工程实例发现,该方法具有一定的推广价值。 最后,本文用软件实现了包含上述方法的面向空间数据挖掘的数据预处理。同时,该软件还提供了数据可视化工具,为人机交互的数据预处理提供了接口。该软件能有效实现对高维空间数据的预处理,具有一定的通用性,有较好的应用前景。
其他文献
中国艺术自诞生之始,即澎湃以浓浓的诗性精神。气之动物,物以感人,发而为诗,溢而为书,变而为画……皆感召于此。至如中国画题款,熔诗、书、画、印于一炉,实是诗性精神在艺术表现上极大的丰富与圆成。  “款题图画,始自苏米,至元明而遂多,以题语位置画境者,画亦由题益妙。高情逸思,画之不足,题以发之,后世乃为滥觞。”(方薰)好的题款,或与画面互为补充、相得益彰,或锦上添花、辉映成趣,更甚者画龙点睛、升华意境
会议
学位
会议
Galectin-1为半乳糖凝集素(galectin)家族的重要成员之一,由135个氨基酸组成,与β-半乳糖苷具有特殊亲和力,常以单体和同源二聚体形式存在,表达于多种类型的细胞,在胸腺、平滑肌、
民勤绿洲位于我国西北干旱区内陆河石羊河流域的下游,是我国西北干旱区典型绿洲之一。本文应用景观生态学理论和方法,以四期TM遥感影像为数据源,综合运用3S技术,研究了民勤绿洲19
会议
赤霉酸诱导的富含半胱氨酸蛋白是近年来发现的一类在N-末端具有一段不同长度的信号肽,C-末端含有12个保守的半胱氨酸残基的蛋白,这类蛋白在多种植物的重要生理过程中发挥着重要作用。本研究旨在利用原核表达获取可溶性的手掌参中赤霉酸诱导的富含半胱氨酸蛋白(GcGASA),研究其体外活性并运用荧光光谱学手段研究其内源荧光。方法:利用pET-32(a)作为原核表达载体,对手掌参中赤霉酸诱导的富含半胱氨酸蛋白G
会议