数据挖掘k-means算法改进及加速研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：nkxrb

【摘要】

：

k-means算法是“数据挖掘十大经典算法”之一。随着当前互联网和信息科技的快速发展，各行各业产生的数据呈爆炸式增长，大数据时代的到来进一步推动了k-means算法的应用。在实际

【作者】

：

张伍召

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

数据挖掘 k-means算法聚类分析 Slave-Master模式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

k-means算法是“数据挖掘十大经典算法”之一。随着当前互联网和信息科技的快速发展，各行各业产生的数据呈爆炸式增长，大数据时代的到来进一步推动了k-means算法的应用。在实际应用中，k-means算法存在如下缺点:1）k-means对初始聚类中心十分敏感，导致了不同的收敛速度和聚类结果;2）在处理大规模数据时，k-means算法执行时间过长。　　针对k-means聚类中心初始化，现有的基于密度的初始化算法依赖于一些主观参数阈值，不稳定且适用性差。另一方面，针对k-means执行时间过长，现有的硬件加速方案主要集中在GPU和FPGA两个平台，大多的解决方案采用Slave-Master模式的异构平台，主从机之间大量的通信造成了性能瓶颈，带来了额外的功耗;同时片上资源限制了聚类的灵活性，只能满足固定个数的聚类需求。为解决上述问题，本文分别从聚类初始化和硬件加速方面提出了针对k-means算法的改进方案，主要的研究内容及研究成果为:　　在聚类初始化方面，本文提出了一种改进的聚类中心初始化方法，该方法定义了结合密度和距离信息的密度距离积。基于该密度距离积，选择出高效稳定且唯一的初始化聚类中心，从而加快k-means算法的收敛速度。最后通过不同数据集上的仿真测试验证了所提算法的良好性能。　　在硬件加速方面，结合k-means算法特点，分别设计了面向小规模和大规模聚类个数的硬件加速方案，解决了聚类个数的限制问题。该加速方案采用片上方式，利用在线更新技术解决了异构平台的大量主从机通信问题。最后通过模拟器平台实验分析了加速方案中各模块对加速性能的影响，通过FPGA平台验证了加速方案的可行性和正确性。通过与当前主流CPU平台对比，该加速方案实现了16.3x到26.7倍的加速比。

其他文献

面向RNa-seq数据分析流程的并行优化研究

随着第二代测序技术的发展和成熟，测序数据量呈现超摩尔定律的增长，而后续的数据分析流程并没有得到与之相匹配的效率提升，同时转录组不仅在不同个体和组织细胞间各不相同，在不同

学位

RNA-seq数据分析流程并行优化模块化设计Samtools工具集

可扩展数据仓库性能管理的研究与设计

在信息技术高速发展和激烈市场竞争的今天，企业管理者如何从来自不同数据源的大量的数据中得到良好的决策支持，这就产生了数据仓库技术。本文从数据集成、查询优化和并行技术三

学位

可扩展数据仓库并行技术数据集成查询非规格化

SPU处理器架构关键技术研究

面向高性能计算机性能评价标准测试程序时，现有高性能处理器能获得很高的浮点效率，但在处理某些大规模实际科学计算时获得浮点效率却非常低。浮点效率的低下意味着浮点计算资源

学位

SPU处理器架构网络传输流水线执行SIMD优化

ISCRMS智能化证券CRM系统设计与实现

该文考察了CRM数据挖掘中所要解决的几种问题,如:客户利润贡献度分析、客户忠诚度分析、客户细分、佣金打折、股票推荐,然后讨论了在CRM中应用数据挖掘时所面临的各种困难,如

学位

数据挖掘动态数据仓库客户关系管理商业模型存储过程联机分析

自动说话人识别技术的研究

说话人识别技术是语音识别技术的一个分支,它产生于人们对安全身份认证的需要.近年来,随着信息技术的发展,尤其是网络的大规模应用,安全控制技术越来越重要.因此,说话人识别

学位

文本无关说话人识别特征提取矢量量化语音识别

Object Web及其在DSECMS中的应用

开发分布式系统需要为不同种类的用户提供不同的用户接口，并解决跨越网络环境实现远程数据和服务的访问问题，分布式系统所固有的复杂性使得它的开发、升级与维护难度较大。随着

学位

Internet/Intranet/Extranet对象技术Web技术UML监控系统

基于Internet的嵌入式系统网络安全应用研究

嵌入式技术这几年的发展很快，无论是在工业监控还是在家用电器等方面，都得到极大的进步。尤其是最近两年，借助家电的信息化、智能化、网络化，嵌入式系统在智能家居中的应用越来越

学位

信息家电IPsec安全联盟家庭网关

XML语言在OA文档设计中的应用

该文首先介绍了XML即可扩展标记语言的基本概念.XML是一种元标记语言,通过使用这种语言,我们可以制定出满足应用所需要的标记信息,并且用这种标记构建相应的XML文档.接着介绍

学位

XMLOA标记语言DTD大纲

开放环境下安全传输平台的研究与设计

开放环境下安全传输平台的研究与设计樊隽龚俭东南大学随着计算机网络和Internet的发展,网络安全越来越受到人们的重视和关注,但在通信中发生的数据窃取、篡改、冒充也越来

学位

网络安全入侵检测系统安全传输身份认证IDMEFIDXPSSL

HTML转换到XML格式以及不同XML标准格式之间的转换

该文主要讲述了将HTML格式转化成XML格式,以及不同XML标准格式之间转换的基本工作过程与关键技术.我们以新浪网新闻HTML作为测试数据,研究将其转化的具体工作方法.在此基础上

学位

XMLHTML转换XSLT

数据挖掘k-means算法改进及加速研究

其他学术论文