一种优化初始中心点的K平均文本聚类算法

来源 :计算机应用 | 被引量 : 11次 | 上传用户:CHEUNGKWOKKUNG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。
其他文献
最新统计数据显示,受国内整体经济形势的影响,自2015年至今,中国打印机市场呈现整体平缓发展的态势,打印机产品缺乏创新,成为禁锢行业发展的原因所在.
继2016年中旬通过联手以色列生物科技公司Accellta进入生物3D打印领域后,以3D打印印刷电路板(PCB)起家的以色列Nano Dimension(ND)公司最近又开始“不务正业”了.据了解,其子公司
分析尘肺胸部X线病变性质,有助于了解防护工作的成效;提示粉尘对机体危害程度;同时对疾病转归、预后、并发症提供信息。 一、资料来源与方法 自1960~1990年6月止,确诊为矽肺28
研究了密钥生成的一般方法,即确定性素数判定和概率性素数判定方法,给出了利用Rabin M iller测试生成密钥对的算法实现。针对在智能IC卡中生成RSA密钥时所面临的实际问题,给出了最优的方案选择。测试结果表明,与目前国外同类RSA智能IC卡相比,其生成RSA密钥的时间较短。
中国知名手机制造商小米公司宣布,小米已开始在印尼本土生产手机,该工厂年产量可达100万台,产品主要供应印尼市场从2017年起小米在印尼销售的手机将实现100%本土化.
中性粒细胞碱性磷酸酶(NAP)在苯接触和苯中毒工人中增高。但由于NAP受许多生理和病理因素以及操作条件的影响,使正常值的差别较大。尤其在职业性苯中毒普查和诊断过程中,常在
就体育院校优秀运动员教学管理定位和教学管理体系的建立,抓好优秀运动员学习过程管理,提高优秀运动员的文化素质等问题进行了研究,提出了对体育院校高水平运动员的教学管理必须
恶性胸膜间皮瘤与接触石棉有关。但还应注意其它因素也可诱发恶性间皮瘤。本文报道了一例辐射线引起的恶性胸膜间皮瘤。 患者24岁。女性。出生7个月时患何杰金氏病。4岁时右
数据中心冷却系统是数据中心中能耗占比最高的辅助系统。因此,降低其能耗是提升数据中心能源利用效率的重要方式。为此,通过分析蒸发冷却原理、蒸发冷却技术在数据中心的适用
分析了具有网络时延和时延抖动限制的动态组播路由问题的数学模型。在此模型的基础上提出了一种基因库(GP)与传统遗传算法(GA)混合的优化算法GP-GA。该算法利用基因库保存进化过程中得到的解路径以指导后继进化过程,同时改进了交叉和变异算子来加快算法的收敛速度。考虑到问题可能陷入的局部最优情况,又构造了基于“保留和不保留”的进化控制策略来增强寻优能力,很大程度上避免了算法“早熟”现象的发生。大量的仿真