数据挖掘k-means算法改进及加速研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nkxrb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-means算法是“数据挖掘十大经典算法”之一。随着当前互联网和信息科技的快速发展,各行各业产生的数据呈爆炸式增长,大数据时代的到来进一步推动了k-means算法的应用。在实际应用中,k-means算法存在如下缺点:1)k-means对初始聚类中心十分敏感,导致了不同的收敛速度和聚类结果;2)在处理大规模数据时,k-means算法执行时间过长。  针对k-means聚类中心初始化,现有的基于密度的初始化算法依赖于一些主观参数阈值,不稳定且适用性差。另一方面,针对k-means执行时间过长,现有的硬件加速方案主要集中在GPU和FPGA两个平台,大多的解决方案采用Slave-Master模式的异构平台,主从机之间大量的通信造成了性能瓶颈,带来了额外的功耗;同时片上资源限制了聚类的灵活性,只能满足固定个数的聚类需求。为解决上述问题,本文分别从聚类初始化和硬件加速方面提出了针对k-means算法的改进方案,主要的研究内容及研究成果为:  在聚类初始化方面,本文提出了一种改进的聚类中心初始化方法,该方法定义了结合密度和距离信息的密度距离积。基于该密度距离积,选择出高效稳定且唯一的初始化聚类中心,从而加快k-means算法的收敛速度。最后通过不同数据集上的仿真测试验证了所提算法的良好性能。  在硬件加速方面,结合k-means算法特点,分别设计了面向小规模和大规模聚类个数的硬件加速方案,解决了聚类个数的限制问题。该加速方案采用片上方式,利用在线更新技术解决了异构平台的大量主从机通信问题。最后通过模拟器平台实验分析了加速方案中各模块对加速性能的影响,通过FPGA平台验证了加速方案的可行性和正确性。通过与当前主流CPU平台对比,该加速方案实现了16.3x到26.7倍的加速比。
其他文献
随着第二代测序技术的发展和成熟,测序数据量呈现超摩尔定律的增长,而后续的数据分析流程并没有得到与之相匹配的效率提升,同时转录组不仅在不同个体和组织细胞间各不相同,在不同
在信息技术高速发展和激烈市场竞争的今天,企业管理者如何从来自不同数据源的大量的数据中得到良好的决策支持,这就产生了数据仓库技术。本文从数据集成、查询优化和并行技术三
面向高性能计算机性能评价标准测试程序时,现有高性能处理器能获得很高的浮点效率,但在处理某些大规模实际科学计算时获得浮点效率却非常低。浮点效率的低下意味着浮点计算资源
该文考察了CRM数据挖掘中所要解决的几种问题,如:客户利润贡献度分析、客户忠诚度分析、客户细分、佣金打折、股票推荐,然后讨论了在CRM中应用数据挖掘时所面临的各种困难,如
说话人识别技术是语音识别技术的一个分支,它产生于人们对安全身份认证的需要.近年来,随着信息技术的发展,尤其是网络的大规模应用,安全控制技术越来越重要.因此,说话人识别
开发分布式系统需要为不同种类的用户提供不同的用户接口,并解决跨越网络环境实现远程数据和服务的访问问题,分布式系统所固有的复杂性使得它的开发、升级与维护难度较大。随着
嵌入式技术这几年的发展很快,无论是在工业监控还是在家用电器等方面,都得到极大的进步。尤其是最近两年,借助家电的信息化、智能化、网络化,嵌入式系统在智能家居中的应用越来越
该文首先介绍了XML即可扩展标记语言的基本概念.XML是一种元标记语言,通过使用这种语言,我们可以制定出满足应用所需要的标记信息,并且用这种标记构建相应的XML文档.接着介绍
开放环境下安全传输平台的研究与设计樊隽 龚俭东南大学随着计算机网络和Internet的发展,网络安全越来越受到人们的重视和关注,但在通信中发生的数据窃取、篡改、冒充也越来
该文主要讲述了将HTML格式转化成XML格式,以及不同XML标准格式之间转换的基本工作过程与关键技术.我们以新浪网新闻HTML作为测试数据,研究将其转化的具体工作方法.在此基础上