【摘 要】
:
数据挖掘,是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。它是一种透过数理模式来分析海量信息,找出不同的数据划分来提供决策支持的方法。
论文部分内容阅读
数据挖掘,是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。它是一种透过数理模式来分析海量信息,找出不同的数据划分来提供决策支持的方法。数据挖掘是信息产业界最前沿的研究方向之一,而聚类分析则是数据挖掘的一项非常活跃的研究课题。聚类分析是将数据按照其相似度,划分成若干有意义的类或簇,同一类或簇中的数据相似度大相异度小,而不同类或簇间的数据相似度小相异度大。高维数据聚类是聚类分析中的重要课题。目前,低维数据的聚类算法已较为成熟。但是对于高维数据,由于其分布特性与低维情况相比有很大差异,使得许多在低维数据中通用的算法在高维数据中失效。因此对高维数据聚类算法的研究具有非常重要的意义。针对高维数据聚类问题,通常采取子空间聚类或全空间降维的方法来解决。论文提出了一种新的基于遗传算法的子空间聚类算法,用信息熵和距离评估子空间对聚类的贡献率作为适应度评估函数,适应度值直接决定了聚类结果的质量,它是评估聚类结果的依据,因此具有一定的理论价值。论文创新之处以及主要工作如下:(1)设计出了一种新的适应度评估函数,这是论文的重点和核心部分。用类内对象距离,类间中心点距离以及信息熵对特征子空间聚类的贡献率作为适应度评估函数,使得精确性和鲁棒性都得到了较大的提升。(2)遗传算法中染色体的编码和搜索空间的确定,编码空间设计为由特征选择子空间和类中心点空间两部分联合组成,由于实数编码的搜索空间更大且较为方便,论文采取实数编码方式。(3)通过人工数据和真实数据来验证论文算法的高效性与鲁棒性,同时与其他聚类算法作比较,评估算法的优劣。
其他文献
我是一个久居农场,年近半百的老通讯员,与记者一起集体采访还是头一次。虽然只有短短几天时间,但我已从他们的工作态度、采访作风等方面学到了许多东西。那是在北疆铁路铺轨
随着计算机技术的发展,数据库逐渐成为主流的数据存储方式,对数据库的检索也变得日趋重要。然而对数据库传统的检索必须了解数据库的运行原理、使用复杂的命令集和形式化计算机
随着电子商务的迅猛发展,点击流数据仓库的研究越来越引起重视。点击流数据包含许多对企业非常有用的信息,包括客户的来源、消费行为、访问兴趣、访问意图等。通过研究这些信
可听噪声是超、特高压输电线路电磁环境影响研究的重要方面。随着输电线路电压等级的不断升高,对输电线路可听噪声预测的研究已经成为超、特高压输电领域的热点问题。可听噪声的准确预测对于输电线路设计前选择合理的线路结构、降低线路架设的造价成本以及确定输送电压等级,保护环境等至关重要。现有的预测方法仅考虑线路的电位梯度,导线结构等因素的影响对可听噪声进行预测,而可听噪声还受环境因素和地理参数等因素的影响,预测
随着嵌入式系统的普遍应用,如何提高其可靠性已经成为一个重要研究领域。本文从嵌入式系统内存空间域保护的角度出发,借鉴了ARINC653中的时空域隔离思想,设计出了一种具有高
在互联网技术发展的驱动下,社会对路由交换设备的需求量越来越多。为了追求高利润、高质量的产品,创造高品牌的口碑,生产厂商不断的探索设备维修的新手段,并通过改进故障诊断
在互联网飞速发展的今天,信息丰富的、直观的图像得到越来越广泛的应用,相比较于文本,图像更容易被人们所接受。传统的文本加密算法已经有很成熟的理论研究和实际应用价值,如何保
无线通信通过了几代技术的发展与变更,大量无线应用对吞吐量、延时、能耗、连接数量、通信距离等系统性能提出了新的需求。协作通信技术通过共享多个节点上的天线形成虚拟 MIM
通过变量变换的方法将一组正交多项式转化成一组非2π周期三角多项式(以下简称为非周期三角多项式),用非周期三角多项式作为逼近工具,对带Legendre权和Chebyshev权的正常积分和
在阿克苏大光棉毛纺织厂今年5月底开办的通讯报道学习班上,56名学员中有一位引人注目的学员——厂党委书记刘中坤。今年43岁的刘中坤,是一位有大学文凭又富有实践经验的企业