基于模糊特征选择策略的聚类算法改进研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:xiaobailxiaoyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘过程中的一个重要的技术。聚类分析是将数据划分成有意义的簇,簇描述了数据集的自然结构特征;类,是基于某些信息的衡量上有一定的公共特性的对象的集合。通常聚类算法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和其他聚类几种。比较常见的聚类算法有K-means算法、STING算法、CLIQUE算法和CURE算法等。 在过去的几年中聚类分析发展方向有两个:加强现有的聚类算法和发明新的聚类算法。现在已经有一些加强的算法用来处理大型数据库和高维度数据例如小波变换使用多分辨率算法,网格从粗糙到密集从而提高聚类簇的质量。对于数据量大、维度高并且包含许多噪声的集合,要找到一个“全能”的聚类算法是非常困难的。某些算法只能解决其中的一到两个问题,同时能解决三个问题的算法还没有。现在最大的困难是高维度(同时包含大量噪声)数据的处理。本文试图做一些这方面的探索。 对于一个高维度的数据集,如果不事先设法去掉多余的特征,模型的效果就会受到很大的影响;降低多余的、不相关特征的个数可以减少聚类的时间,产生一个更加简洁和易于理解的聚类结果。而在传统的聚类算法中,各个特征通常被无差异地处理,所有特征同样程度地作用于聚类结果。本文用特征重要因子衡量特征对聚类结果的贡献程度并广义加权特征在聚类过程中的作用,从而实现优化聚类结果的目的。 K-means是最古老、应用最广泛的聚类方法之一(Tan等,2006)。本文正是基于特征选择的思想对K-means算法进行改进,以去除高维数据对象的特征空间中的冗余特征甚至噪声特征,这些特征一方面可能降低分类或聚类的精度,另一方面会大大增加学习及训练的时间及空间复杂度。改进算法可以实现降维,降低机器学习的时间及空间复杂度。改进的方法是:使用ULAC框架,首先进行初次聚类,获得类标签;根据添加了类标签的数据集建立决策树,使用USFS法计算FIF(Liu at,2006);然后根据上述步骤获得的FIF修正K-means算法的相似性度量再次聚类,得到修正后的聚类结果。本文选取了UCI数据集中的3个数据集进行改进的K-means算法的验证。进行了模糊特征选择之后,聚类模型的维度被降低,各维度对聚类结果的区分程度也被明确度量,数据集更容易被理解,模型变得更加简单。UCI数据集的实验表明了改进算法的有效性。 改进算法在国内某高校的人力资源数据集的实际应用进一步证明,改进算法是实用和有效的。
其他文献
巨灾风险证券化本质上是将巨灾风险转嫁到资本市场,利用资本市场的雄厚资金力量来化解。正确认识巨灾风险证券化的巨大潜力,大力推行巨灾风险证券化,对中国保险业的发展具有
随着信息时代的到来和网络的日益普及,文本信息数据量呈爆炸式增长,因此,如何在海量的文本信息中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息
本文通过对荣华二采区10
期刊
统一战线是无产阶级及其政党在一定历史条件下,为实现一定的历史任务,同其他阶级、阶层、党派、以及一切可能团结的力量,在一定的共同利益的基础上结成的政治联盟,它是中国革
考试在我国有着悠久的历史和严格的考试制度,从古到今发生了很大的变化,本文从考试制度及高考招生体制分析我国高考招生制度改革的基本思路。 Examination in our country h
为探讨阶段式考核法在《高级助产学》实践技能考核中的应用效果,在实践技能考核中,将2012级高职助产专业120名学生分为两组,对照组采用传统考核法,观察组采用阶段式考核法,考
随着我省十几年高考自主命题结束,高三复习工作要做出相应调整,一来让学生更好地适应全国卷考试模式,提高学生学习质量;二来让学生以积极的学习状态走进考场,进而为学生健全
环境保护学是农学专业的选修课,主要培养学生的可持续发展和生态农业意识,课程成绩考核模式的改革对提高学生的学习兴趣和学习效率具有重要意义.本文对环境保护学课程成绩的
当前高考对学生综合能力要求越来越高,无论是客观题还是主观题,都呈现出多角度、宽领域、多层面考查的趋势.新课程理念下,作为教师,其不仅要研究“教法”,更重要的要研究“学
期刊
数学是一门极具思维创新能力的科目,对数学思维能力的培养主要依靠对学生演绎能力和归纳能力的培养.但是在传统数学教学中,教师一般将对学生演绎能力的培养视为教学重点.这就