论文部分内容阅读
随着信息技术和数据库的迅猛发展,高维数据变得越来越普遍,在美国休斯顿举行的第五届关于数据挖掘的SIAM(International Conferenceon Data Mining)会议上指出,当前许多应用领域都需要进行高维数据的聚类分析。高维数据的聚类分析正逐渐成为数据挖掘等领域的研究热点。但由于“维度灾难”和计算效率等问题的存在,阻碍了高维聚类算法的发展,不论是理论还是应用方面,都存在许多的不足。因此本文选择高维数据的聚类算法为题,从不同方面为构建可解释的、全局最优的、适用多种属性数据的高维聚类算法做出一定的贡献。 围绕高维聚类这一核心问题,本文希望能够解答以下问题:(1)如何处理混合型高维数据的聚类问题?(2)如何将模糊理论引入到高维聚类问题,解决一些硬聚类不能解释的实际问题?(3)当高维数据集规模较大时,如何提高高维聚类算法的计算效率?(4)如何解决高维聚类算法全局寻优的问题? 在研究的逻辑顺序上,全文按照传统高维聚类算法概述——高维混合聚类算法研究——基于模糊的高维聚类算法研究——基于遗传的高维聚类算法研究——高维聚类算法总结与展望的逻辑顺序展开叙述。第2章回顾传统高维聚类算法,并对几个主要算法的优缺点进行了比较。第3章针对基于混合数据的高维聚类算法的不足,提出了一种新的算法——高维K-Prototyes算法,并通过标准数据库UCI中的实际数据验证了新算法的有效性;第4章将模糊理论引入高维投影寻踪聚类算法当中,创建出一个新的算法究——基于模糊的投影寻踪算法(Fuzzy—PPC),并将其应用到西医和中医领域中的两个实例中,验证该算法的有效性;第5章针对传统的投影寻踪聚类算法存在局部寻优的缺点,提出了一种基于遗传算法的投影寻踪算法,并通过仿真试验验证了新算法的有效性。 本文的主要贡献和创新: (1)从立题上而言,现代科学技术的许多领域都遇到高维数据的聚类问题:如在生物信息学领域中,如何对维数高到成百上千的基因数据聚类以获得对种群中固有结构的认识?在中医领域中,如何对个数有限但维度较高的症状进行分类,来获得症状与证候之间的辩证关系?这些问题利用传统的聚类算法均得不到理想的结果,因此本文以研究高维数据的聚类算法为题本身即具有较强的创新性; (2)从应用方面而言,本文在第四章首次将模糊聚类与投影追踪聚类算法相融合,利用模糊聚类的特点(每一个个体都基于一定的隶属度被分配到各个类中)来处理高维数据中同一个体不可以同时属于多个类的问题。并将这一新的聚类算法应用在中医证候的辩证分析中,以慢性肾衰数据为例,得到较好的结论,为已有的慢性肾衰证候的分型标准提供了科学支持。由于是首次利用模糊投影寻踪的聚类算法来研究中医证候的辩证问题,使得本文在实践应用方面有较强的创新性。本文的研究方法为中医辩证的现代化研究开拓了新的思路,为建立客观、科学的中医辩证体系提供了一种新的聚类挖掘算法。 (3)从理论方面而言,首先已有的高维聚类算法多是针对数值属性的数据,而对于混合属性数据的高维聚类算法研究较少,因此本文在第三章提出了一种新的高维K-Prototypes算法,适用于处理维度较高的混合型数据的聚类问题;其次,原有的投影寻踪算法(PROCLUS)是利用爬山法(Hillclimbing)对各类中心点进行循环迭代,由于爬山法是一种局部搜索(localsearch)方法,得到的最优解可能仅仅是局部最优,因此本文在第五章利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代,试图寻找到全局最优解;最后当数据集的规模较大时,容易导致高维聚类算法计算效率下降的问题,因此本文分别在第3章和第4章提出两种聚类初始化过程(贪婪法则和基于熵的聚类算法),优化初始化类中心点,从而减少循环迭代次数,提高算法效率。综上所述,本文在聚类理论方面也有一定的创新。