高维聚类算法的研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：carol123450

【摘要】

：

随着信息技术和数据库的迅猛发展，高维数据变得越来越普遍，在美国休斯顿举行的第五届关于数据挖掘的SIAM(International Conferenceon Data Mining)会议上指出，当前许多应用领域

【作者】

：

吴孟书

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2008年期

【关键词】

：

信息技术高维数据聚类算法全局寻优问题数值属性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术和数据库的迅猛发展，高维数据变得越来越普遍，在美国休斯顿举行的第五届关于数据挖掘的SIAM(International Conferenceon Data Mining)会议上指出，当前许多应用领域都需要进行高维数据的聚类分析。高维数据的聚类分析正逐渐成为数据挖掘等领域的研究热点。但由于“维度灾难”和计算效率等问题的存在，阻碍了高维聚类算法的发展，不论是理论还是应用方面，都存在许多的不足。因此本文选择高维数据的聚类算法为题，从不同方面为构建可解释的、全局最优的、适用多种属性数据的高维聚类算法做出一定的贡献。　　围绕高维聚类这一核心问题，本文希望能够解答以下问题:(1)如何处理混合型高维数据的聚类问题？(2)如何将模糊理论引入到高维聚类问题，解决一些硬聚类不能解释的实际问题？(3)当高维数据集规模较大时，如何提高高维聚类算法的计算效率？(4)如何解决高维聚类算法全局寻优的问题？　　在研究的逻辑顺序上，全文按照传统高维聚类算法概述——高维混合聚类算法研究——基于模糊的高维聚类算法研究——基于遗传的高维聚类算法研究——高维聚类算法总结与展望的逻辑顺序展开叙述。第2章回顾传统高维聚类算法，并对几个主要算法的优缺点进行了比较。第3章针对基于混合数据的高维聚类算法的不足，提出了一种新的算法——高维K-Prototyes算法，并通过标准数据库UCI中的实际数据验证了新算法的有效性;第4章将模糊理论引入高维投影寻踪聚类算法当中，创建出一个新的算法究——基于模糊的投影寻踪算法(Fuzzy—PPC)，并将其应用到西医和中医领域中的两个实例中，验证该算法的有效性;第5章针对传统的投影寻踪聚类算法存在局部寻优的缺点，提出了一种基于遗传算法的投影寻踪算法，并通过仿真试验验证了新算法的有效性。　　本文的主要贡献和创新:　　(1)从立题上而言，现代科学技术的许多领域都遇到高维数据的聚类问题:如在生物信息学领域中，如何对维数高到成百上千的基因数据聚类以获得对种群中固有结构的认识？在中医领域中，如何对个数有限但维度较高的症状进行分类，来获得症状与证候之间的辩证关系？这些问题利用传统的聚类算法均得不到理想的结果，因此本文以研究高维数据的聚类算法为题本身即具有较强的创新性;　　(2)从应用方面而言，本文在第四章首次将模糊聚类与投影追踪聚类算法相融合，利用模糊聚类的特点（每一个个体都基于一定的隶属度被分配到各个类中）来处理高维数据中同一个体不可以同时属于多个类的问题。并将这一新的聚类算法应用在中医证候的辩证分析中，以慢性肾衰数据为例，得到较好的结论，为已有的慢性肾衰证候的分型标准提供了科学支持。由于是首次利用模糊投影寻踪的聚类算法来研究中医证候的辩证问题，使得本文在实践应用方面有较强的创新性。本文的研究方法为中医辩证的现代化研究开拓了新的思路，为建立客观、科学的中医辩证体系提供了一种新的聚类挖掘算法。　　(3)从理论方面而言，首先已有的高维聚类算法多是针对数值属性的数据，而对于混合属性数据的高维聚类算法研究较少，因此本文在第三章提出了一种新的高维K-Prototypes算法，适用于处理维度较高的混合型数据的聚类问题;其次，原有的投影寻踪算法(PROCLUS)是利用爬山法(Hillclimbing)对各类中心点进行循环迭代，由于爬山法是一种局部搜索(localsearch)方法，得到的最优解可能仅仅是局部最优，因此本文在第五章利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代，试图寻找到全局最优解;最后当数据集的规模较大时，容易导致高维聚类算法计算效率下降的问题，因此本文分别在第3章和第4章提出两种聚类初始化过程（贪婪法则和基于熵的聚类算法），优化初始化类中心点，从而减少循环迭代次数，提高算法效率。综上所述，本文在聚类理论方面也有一定的创新。

其他文献

不完全信息下资产定价模型的实证研究

根据标准资产定价模型(CAPM)，股票的总体风险可以分解为不可分散的系统性风险和可分散的特质风险。理论上投资者不会因为可分散风险要求更高的回报率，即股票预期收益率仅需补偿

学位

股票市场预期收益率资产定价模型不完全信息

合作学习在小学语文教学中的应用解析

本文通过对荣华二采区10

期刊

如何进行苹果全套袋

全套袋 ,是一种新的栽培模式 ,即一个苹果园 ,对每一株苹果树 ,都进行严格疏果的基础上 ,然后给所有的苹果进行套袋。上世纪 80年代末期 ,为出口红星、红富士苹果 ,才开始大

期刊

申请品种保护的大豆品种常规种SSR位点纯合度分析

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

品种保护常规种SSR位点纯合度一致性测试

小学语文整体把握与片段训练的实践探究

小学习作教学时,仍充斥着不少繁复低效的课堂。以单元整合为中心点,整理单元主题的面和每篇课文的点为线索,以习作片段的形式结合单元习作的连接点。以本为本,寻找片段练写和

期刊

inquiry unit integrationexercisespractice segment

夏日养生多吃皮

夏日多吃瓜果有助于身体健康是很多人知道的,但是很多瓜果的皮也是对身体很有帮助的哦,不同皮也有不同的功效,下面就一起来看一下吧。1、梨皮梨皮是一种药用价值较高的中药,

期刊

梨皮胃酸过多苹果皮调服坐便器慢性腹泻收敛作用西瓜皮排毒黄瓜皮

工作—家庭冲突及其平衡策略研究

现代社会中，随着社会城市化、工业化和市场化的发展，与工作、家庭相关的社会背景、家庭结构、工作方式以及人们的工作—家庭价值观都发生了很大的变化，同时，随着经济和信息技术的

学位

人力资源工作方式家庭结构冲突管理

2012年新疆乌苏市法定传染病疫情分析

目的了解新疆乌苏市法定传染病发病规律与流行情况,为有效预防传染病的发生提供科学依据。方法对疾病监测信息报告管理系统提供的2012年疫情资料进行统计分析。结果 2012年乌

期刊

传染病报告疫情分析乌苏市丙类传染病报告病例数病例总数法定传染病传染病发病呼吸道传染病传染病预防

浅析小学语文阅读与写作的有机结合

在小学语文教学中要提高学生的写作水平,就要加强阅读教学,使学生通过阅读体会写作方法,在阅读中培养写作情感和写作灵感。由于阅读和写作密切相连,阅读是写作的基础。所以,

期刊

中国国际贸易隐含碳的因素分解及环境效应研究

学位

高维聚类算法的研究

其他学术论文