【摘 要】
:
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密
【机 构】
:
兰州大学信息科学与工程学院,兰州大学信息科学与工程学院,西安电子科技大学计算机学院,兰州大学信息科学与工程学院 甘肃兰州730000,甘肃兰州730000,陕西西安710071,甘肃兰州730000
论文部分内容阅读
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果.
K-means algorithm is a commonly used classification method in document clustering.In recent years, there are many improved algorithms for optimizing initial centers in order to improve the quality of clustering.In this paper, based on the density selection center algorithm, The determination of the density parameter aided by the similarity probability model can effectively reduce the blindness of parameter selection.At the same time, this paper presents a method for rapidly determining the optimal value of K value by a large number of experiments.The experimental results show that this method has an ideal effect.
其他文献
目前 ,我省各棉区棉花将陆续进入蕾铃期 ,加强该期的田间管理 ,是夺取棉花高产的关键。一、蕾期管理棉花蕾期是营养生长与生殖生长并进的时期。这一时期要实现棉花稳长 ,达到
目的:研究环磷酸腺苷cAMP调控体外培养的人巩膜成纤维细胞(humanscleralfibroblasts,HSF)胶原合成及其信号通路。
方法:体外培养HSF,取5~8代的细胞,MTS法检测药物对HSF细胞增
1.精选种子 选择增产潜力大,抗逆性、分蘖力强的杂交组合,如特优559、汕优63等。2.肥床旱育 按1∶(25~30)的比例留足苗床,4月下旬播种,施足苗床肥,补足水分,将浸种剂处理过
雅典的各方面条件有利于民主政治与法制的发展,促进了其政治民主、经济繁荣、法制健全的局面出现,体现了追求民主、进步、自由、法治的精神,但是雅典民主与法制也存在局限性,
在人口众多的中国,居住权问题已经显得日益重要,居住权曾经写进《物权法》草案,但最后还是没有得到通过.然而,现实生活中大量存在的有关居住权的案例却无法通过已有的法律制
行政管理制度创新是政治体制改革的重要内容,从而加强行政管理制度创新是推进政治体制改革,发展社会主义民主政治的必然要求.本文介绍了地方政府行政管理制度创新的理论基础
Nine brown planthopper(BPH) resistance genes have been registered so far, butof them only Bph1, bph2, Bph3, bph4, Bph9, and other three unregisteredgenes Bph10
或独自享受小资情怀,或与三五知己好友聚会谈笑,或轻酌浅啜,或纵情豪饮,如此一个大体量的“会所”,再大的心也容得下!rn这就是毗邻湘水国际的黔阳古城,是全国保存最完好的明
教育一直受到社会各界的关注,它关乎着一个国家的未来,近几年来,教学发生改革,尤其是高中语文教学,文章首先讲明了高中语文课的教学意义,提出了当前高中语文课堂教学面临的几
寒暄语在日常生活中必不可少.新年寒暄语是指人们相互拜年时所用的语句.包括口头用语和书面用语.口头用语是人们在碰面时互为打招呼用的语句,而书面用语则特指贺年卡上的语句