k-均值算法的初始化方法综述

来源 :运筹学学报 | 被引量 : 0次 | 上传用户:xxxhot006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-均值问题自提出以来一直吸引组合优化和计算机科学领域的广泛关注,是经典的NP-难问题之一.给定N个d维实向量构成的观测集,目标是把这N个观测点划分到k(≤N)个集合中,使得所有集合中的点到对应的聚类中心距离的平方和最小,一个集合的聚类中心指的是该集合中所有观测点的均值.k-均值算法作为解决k-均值问题的启发式算法,在实际应用中因其出色的收敛速度而倍受欢迎.k-均值算法可描述为:给定问题的初始化分组,交替进行指派(将观测点分配到离其最近的均值点)和更新(计算新的聚类的均值点)直到收敛到某一解.该算法通常被认为几乎是线性收敛的.但缺点也很明显,无法保证得到的是全局最优解,并且算法结果好坏过于依赖初始解的选取.于是学者们纷纷提出不同的初始化方法来提高k-均值算法的质量.现筛选和罗列了关于选取初始解的k-均值算法的初始化方法供读者参考.
其他文献
从模糊信息的结构特征和模糊决策的本质特征出发,提出了拟线性模糊数的概念,讨论了拟线性模糊数的运算特征和逼近性质,建立了基于度量和不确定性限制的模糊方程组的求解模型(
流行病学调查、细菌分离培养鉴定及动物试验证明,成都某种鸭场流行的眼炎是由产气肠杆菌与液化沙雷氏菌混合感染引起的,并初步证明:该病可能经过破损的粘膜而感染,被污染的水源是
期刊
首次考虑延迟多重休假离散时间成批到达的Geomx/G/1可修排队系统的可靠性指标,在假定到达间隔时间和服务台的寿命服从几何分布,而服务时间、延迟休假时间、休假时间和服务台
利用可再生能源制备氢能源对整个国民经济的发展具有重要的意义.水的理论分解电位为1.23V.但是由于存在电极过电位,实际最佳的分解电位为1.5V.在这种条件下,高达31%的太阳能
为分析我国物流企业生产效率的发展状况,利用DEA CCR模型和Window Analysis技术对我国18家物流企业在2001-2006年间的生产效率进行发展分析.通过分析发现:1)我国物流市场缺乏
针对一般样条方法在拟合利率期限结构时远期收益曲线振荡过大的缺陷,在差商定义三次B样条函数的基础上,设定债券组合的权重,采用包含可变惩罚项的VRP方法,构造了上交所国债利
目的探讨氧自由基对烧伤后红细胞免疫粘附功能的影响。方法于伤后 1 d、 3 d、 5 d、 7 d、 14 d、 21 d、 28 d和 35d,观察 RBC-C3b受体花环形成率 (RC3b RR)和 RBC-IC花环形
分析了基于Browser/Server的中间代理件技术,利用该技术可以为用户提供一个安全的数据传输服务,该技术特别适用于网上银行、网上购物等对安全性要求高的领域.
考虑到区间值模糊集中代表元在决策分析中的重要作用,提出三参数区间值模糊集和三参数区间值模糊值的概念,给出了三参数区间值模糊值之间的运算关系,定义了三参数区间值模糊
微生物基因组研究与人类基因组计划(Human Genome Project,HGP)是相得益彰的.由于微生物基因组相对较小,易于操作,它的研究往往先行一步,起到基因组研究中“先行官”的作用.