K--means算法的改进及在银行业中的应用

来源 :北京林业大学 | 被引量 : 0次 | 上传用户：knwin

【摘要】

：

随着信息技术时代的到来，人们在数据的管理与应用上发生了翻天覆地的变化，各个行业每天都会积累大量的数据，传统的数据库管理系统已不能满足海量数据在存储方面的各项需求。数据

【作者】

：

李慧敏

【机构】

：

北京林业大学

【出处】

：

北京林业大学

【发表日期】

：

2018年期

【关键词】

：

银行业客户画像高维数据相似性度量 k均值聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术时代的到来，人们在数据的管理与应用上发生了翻天覆地的变化，各个行业每天都会积累大量的数据，传统的数据库管理系统已不能满足海量数据在存储方面的各项需求。数据挖掘技术的出现改变了人们利用数据的方式，揭示了隐含在其中的、未知的却具有潜在的重要价值的信息，从而弥补了传统应用工具在这一方面的不足。聚类分析是数据挖掘领域中一个重要的应用工具，既可以用于模型建立之前的数据预处理过程，又可以作为数据分析结果的解释依据，反映了数据的内在差异和分布特点。然而，随着数据规模的不断扩大，深度范围越来越广，数据的数量和属性个数同时以几何倍数快速增长，导致数据的形式也变得十分复杂，维度也由传统的单一维度或低维上升到高维空间。高维数据的分析开始成为目前的一大难点和热点之一。　　随着空间中数据维度的升高，索引结构的性能不断下降，距离也随之失去对比性，在低维空间中，利用传统的Lp距离函数进行聚类分析能够达到较好的效果，但是当维度上升至高维空间时，传统的距离函数将失去意义，基于该距离函数的聚类算法也将随之失效。本文针对这一问题，对传统的相似性函数进行重新设计，提出了一种有效的高维相似性度量函数，并将基于该函数的改进算法成功应用于银行业的客户画像上，有利于为银行业精准营销提供一定的决策参考，因此本文具有重要的理论和现实意义。本文的主要工作及相应的结论如下:　　(1)根据高维空间中最近邻查询的定义，从理论和实证的角度论证了传统的Lp距离函数在高维空间中的无效性。　　(2)针对现有的改进的相似性度量方法，分析了其不足之处，并在此基础上设计了一种新的基于信息熵的相似性函数。　　(3)通过实验证明了改进的相似函数在高维空间中的稳定性，同时发现基于该相似函数的聚类算法相比于传统算法在准确率方面有着显著的提升。　　(4)将改进的聚类算法应用于某银行的数据分析上，结合搭建的银行标签体系将客户进行分类，生成银行客户的画像，并针对每类客群给予管理措施和策略。

其他文献

获取(&)空间上专家线性分类判断规则算法的优化方法

期刊

日立-住友推出90 t的重型作业履带起重机/BMS组建微型起重机车队

期刊

日立作业履带起重机组建微型

基于随机冲浪模型的XML文摘句子重排

期刊

地方政府绩效测评体系研究

政府绩效测评是应用绩效测评的理念来衡量政府的工作成果。在民主社会中，政府是公众选择的代表自己行使权利的机构，因此公众有权利了解政府的绩效状况，这是政府绩效测评的合理性

学位

地方政府绩效测评体系构建指标设计