论文部分内容阅读
随着信息技术时代的到来,人们在数据的管理与应用上发生了翻天覆地的变化,各个行业每天都会积累大量的数据,传统的数据库管理系统已不能满足海量数据在存储方面的各项需求。数据挖掘技术的出现改变了人们利用数据的方式,揭示了隐含在其中的、未知的却具有潜在的重要价值的信息,从而弥补了传统应用工具在这一方面的不足。聚类分析是数据挖掘领域中一个重要的应用工具,既可以用于模型建立之前的数据预处理过程,又可以作为数据分析结果的解释依据,反映了数据的内在差异和分布特点。然而,随着数据规模的不断扩大,深度范围越来越广,数据的数量和属性个数同时以几何倍数快速增长,导致数据的形式也变得十分复杂,维度也由传统的单一维度或低维上升到高维空间。高维数据的分析开始成为目前的一大难点和热点之一。 随着空间中数据维度的升高,索引结构的性能不断下降,距离也随之失去对比性,在低维空间中,利用传统的Lp距离函数进行聚类分析能够达到较好的效果,但是当维度上升至高维空间时,传统的距离函数将失去意义,基于该距离函数的聚类算法也将随之失效。本文针对这一问题,对传统的相似性函数进行重新设计,提出了一种有效的高维相似性度量函数,并将基于该函数的改进算法成功应用于银行业的客户画像上,有利于为银行业精准营销提供一定的决策参考,因此本文具有重要的理论和现实意义。本文的主要工作及相应的结论如下: (1)根据高维空间中最近邻查询的定义,从理论和实证的角度论证了传统的Lp距离函数在高维空间中的无效性。 (2)针对现有的改进的相似性度量方法,分析了其不足之处,并在此基础上设计了一种新的基于信息熵的相似性函数。 (3)通过实验证明了改进的相似函数在高维空间中的稳定性,同时发现基于该相似函数的聚类算法相比于传统算法在准确率方面有着显著的提升。 (4)将改进的聚类算法应用于某银行的数据分析上,结合搭建的银行标签体系将客户进行分类,生成银行客户的画像,并针对每类客群给予管理措施和策略。