论文部分内容阅读
本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克服传统的K-means算法需要靠人的主观经验确定初始类别数和初始聚类中心这个缺点,并保留了传统K-means算法效率高的优点,实验证明应用该方法生成的文摘效果较好,系统效率较高。