基于粒子群优化的数据流挖掘的聚类算法分析

来源 :长沙理工大学 | 被引量 : 1次 | 上传用户:awood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及其应用技术的迅猛发展,人类获取数据的能力得到很大程度的提高,数据流(Data Streams)已成为重要的数据来源之一,因此有关数据流的挖掘算法也已成为一个重要的前沿课题。数据流聚类是数据流挖掘的一个重要的分支,其主要目的是从数据流中发现新的知识模式和隐藏的新规律。数据流是一个由不断到达的数据所组成的动态变化增长的数据集,要从有限的数据处理分析过渡到无限的数据处理分析,人们面临着新的严峻的挑战,需要寻求新的聚类算法。最为经典的数据流聚类算法是CluStream算法,Clustream算法包括在线聚类部分和离线部分两部分,本文主要的研究工作是基于两层模型,对数据流的离线部分做优化处理。本文的主要研究工作包括以下几个方面:(1)分析了粒子群算法与遗传算法优缺点,并结合两者的优点,对基于质心的K-means算法的聚类中心做优化,使得K-means的聚类算法产生更好的聚类效果。实验数据表明:采用基于交换技术的混合IGA&PSO的聚类算法比单一的K-means算法性能更好。(2)PSO作为一种智能优化算法,有时也会因为早熟而陷入局部最优解。为了解决局部最优的问题,利用捕食-被捕食的粒子群优化(PPPSO)作优化,在PPPSO中,捕食者追逐被捕食者的中心,而被捕食者逃离捕食者,这是一种防止局部最优者出现且找到全局最优者的一种有效的方法。本文提出了一种使用PPPSO来优化模糊均值的聚类方法。(3)在高维数据流空间里,为了解决多余特征对数据流聚类质量的影响,提出了一种基于粒子群与特征选择的数据流聚类算法。此算法具有自动探测、移除多余不重要特征等功能。实验结果表示,基于特征选择的数据流聚类算法(DSCFC),在对有多余特征的数据流聚类时,比CluSteam算法更有效,聚类质量更好。(4)在数据流挖掘中,要快速地挖掘出数据流中的任意有趣模式,如果只利用现有的基于频繁项集算法直接进行复杂模式挖掘是困难的。为解决此问题,一种基于频繁项集的条件模式挖掘被提出。从频繁项集出发,去挖掘那些不能从项集中立即发现的任意模式,即条件模式挖掘。把任意模式条件挖掘与数据聚类分析结合起来,能更快速有效地挖掘数据库中任意的有趣的规则。
其他文献
IPv6替代IPv4成为下一代网络协议已是历史的必然。随着IPv6应用规模的扩大,针对IPv6的入侵方式层出不穷,现有的入侵检测系统不能适用于IPv6网络环境。为解决此问题,本文设计
学位
我国拥有丰富的文物资源,但是对这些文物资源的保存却十分困难。在“大数据”的时代背景下,为了更好的对文物资源进行鉴赏、交流和保护,建立一个完善的数字化文物保护体系势
可信计算立足于终端,在终端构建一个信任根,以信任根为起点,通过完整性度量技术,建立信任链,实现信任由信任根扩展到硬件平台、操作系统,直至整个网络,保证整个计算环境的可信。  
学位
随着互联网的普及与应用,当前的计算机系统已经发展成为了复杂的、开放式的系统,这给社会的发展和人们的生活带来了极大的便利,但是网络规模不断扩大的同时也极大地促进了网
随着信息技术及相关产业的发展,网上在线数据库已成为一个巨大的信息资源仓库,这些在线数据库信息不能被传统搜索引擎检索,只能通过向接口提交查询来获取,这些信息被称为Deep
互联网规模的不断扩大,必将促使具有海量地址空间的1Pv6协议在全球范围内逐步取代地址资源匮乏的lPv4协议。又随着移动通信和无线接入技术的飞速发展,以及便携式移动设备的普及
随着计算机科学技术的飞速发展,计算机软件的规模日益庞大,调试和维护越来越困难。而另一方面,软件的安全形势严峻,对未受信源提供的代码的安全执行问题逐渐凸现出来。在这种
原油开发过程是一个比较庞大且复杂的系统工程,涉及数据种类较多,对于原油产量的影响程度也各不相同。目前的油田生产管理多以原油产量为中心,原油产量成为衡量油田生产水平
随着工业化和各种科学技术的发展,将图形图像处理技术应用到地震勘探工作中已成为一种研究趋势,而地震剖面图像增强已成为地震剖面预处理中的研究热点。但是,由于图像增强算
目前,数据挖掘(Data Ming,DM)采用较新的技术是粗糙集(Rough Set,RS)。它在分析和处理不完整、不一致和不精确的数据并进行知识的约简时不需要先验经验。粗糙集主要的研究内