一种优化初始中心点的K平均文本聚类算法

来源 :计算机应用 | 被引量 : 11次 | 上传用户：CHEUNGKWOKKUNG

【摘要】

：

文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。

【作者】

：

赵万磊王永吉张学杰李娟

【机构】

：

云南大学,中国科学院,云南大学

【出处】

：

计算机应用

【发表日期】

：

2005年09期

【关键词】

：

优化文本聚类 K平均 optimize document clustering K-means

【基金项目】

：

国家高技术研究发展计划(863计划)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

专家：智能化催生打印机市场变革

最新统计数据显示,受国内整体经济形势的影响,自2015年至今,中国打印机市场呈现整体平缓发展的态势,打印机产品缺乏创新,成为禁锢行业发展的原因所在.

期刊

打印机市场智能化专家数据显示经济形势

Nano Dimension公司将研发3D打印陶瓷材料

继2016年中旬通过联手以色列生物科技公司Accellta进入生物3D打印领域后,以3D打印印刷电路板（PCB）起家的以色列Nano Dimension（ND）公司最近又开始“不务正业”了.据了解,其子公司

期刊

DIMENSION先进陶瓷材料NANO打印3D研发生物科技印刷电路板

上海耐火材料厂矽肺患者X线病变分析

分析尘肺胸部X线病变性质,有助于了解防护工作的成效;提示粉尘对机体危害程度;同时对疾病转归、预后、并发症提供信息。一、资料来源与方法自1960～1990年6月止,确诊为矽肺28

期刊

矽肺患者动态胸片疾病转归耐火材料厂接尘工龄晚发矽肺矽尘防护工作诊断标准胸大片

智能卡中RSA密钥生成的比较与研究

研究了密钥生成的一般方法,即确定性素数判定和概率性素数判定方法,给出了利用Rabin M iller测试生成密钥对的算法实现。针对在智能IC卡中生成RSA密钥时所面临的实际问题,给出了最优的方案选择。测试结果表明,与目前国外同类RSA智能IC卡相比,其生成RSA密钥的时间较短。

期刊

密钥生成确定性素性检测算法概率性素性检测算法RabinMiller测试

小米开始在印尼生产手机年产量百万台

中国知名手机制造商小米公司宣布,小米已开始在印尼本土生产手机,该工厂年产量可达100万台,产品主要供应印尼市场从2017年起小米在印尼销售的手机将实现100%本土化.

期刊

手机制造商年产量印尼小米生产本土化

检测方法对中性粒细胞碱性磷酸酶组织化学染色积分的影响

中性粒细胞碱性磷酸酶(NAP)在苯接触和苯中毒工人中增高。但由于NAP受许多生理和病理因素以及操作条件的影响,使正常值的差别较大。尤其在职业性苯中毒普查和诊断过程中,常在

期刊

血片苯接触接触组中性粒细胞孵育时间操作条件染色液操作过程苯浓度磷酸酶活性

对体育院校优秀运动员教学管理的探究

就体育院校优秀运动员教学管理定位和教学管理体系的建立，抓好优秀运动员学习过程管理，提高优秀运动员的文化素质等问题进行了研究，提出了对体育院校高水平运动员的教学管理必须

期刊

体育院校优秀运动员教学管理sport colleges elite athletes teaching management

辐射线引起恶性胸膜间皮瘤

恶性胸膜间皮瘤与接触石棉有关。但还应注意其它因素也可诱发恶性间皮瘤。本文报道了一例辐射线引起的恶性胸膜间皮瘤。患者24岁。女性。出生7个月时患何杰金氏病。4岁时右

期刊

恶性胸膜间皮瘤辐射线叩诊浊音何杰金氏病右肺轻度活动淋巴结肿大放射治疗呼吸急促纵隔镜

蒸发冷却技术在数据中心应用

数据中心冷却系统是数据中心中能耗占比最高的辅助系统。因此,降低其能耗是提升数据中心能源利用效率的重要方式。为此,通过分析蒸发冷却原理、蒸发冷却技术在数据中心的适用

期刊

蒸发冷却数据中心节能evaporative coolingdata centerenergy saving

求解动态组播路由问题的混合优化遗传算法

分析了具有网络时延和时延抖动限制的动态组播路由问题的数学模型。在此模型的基础上提出了一种基因库(GP)与传统遗传算法(GA)混合的优化算法GP-GA。该算法利用基因库保存进化过程中得到的解路径以指导后继进化过程,同时改进了交叉和变异算子来加快算法的收敛速度。考虑到问题可能陷入的局部最优情况,又构造了基于“保留和不保留”的进化控制策略来增强寻优能力,很大程度上避免了算法“早熟”现象的发生。大量的仿真

期刊

STEINER树动态组播路由基因库遗传算法路由优化Steiner tree dynamic multicast routing Gene-Pool（G

一种优化初始中心点的K平均文本聚类算法

其他学术论文